Gemini API、Flex・Priority inference tier を追加し service_tier でルーティング可能に

Gemini API に Flex と Priority の inference tier が追加され、同一の同期エンドポイント上で service_tier を指定して背景寄りのジョブを Flex、対話寄りのジョブを Priority に振り分けられるようになった。エージェント用途の拡大に伴い、高トラフィックのバックグラウンド処理とチャットボット・copilot など即応が要る対話処理を、従来は標準の同期 serving と非同期 Batch API の二系統に分けて設計しがちだったが、そのギャップを埋め、非同期ジョブ管理を増やさずに用途別のコストと信頼性のトレードオフを選べる構成に寄せる狙い。

#料金

tier 間の関係は最適化ドキュメントの表どおりで、Flex は Standard の 50% ディスカウント、Priority は Standard より 75〜100% 高いレート帯とされている。いずれもトークン課金。Gemini API pricing に記載。

以下はGemini 3.1 Pro Previewの例：

Tier	入力（プロンプト ≤200k / >200k）	出力（思考トークン含む、同左）
Standard	$2.00 /$ 4.00	$12.00 /$ 18.00
Flex	$1.00 /$ 2.00	$6.00 /$ 9.00
Priority	$3.60 /$ 7.20	$21.60 /$ 32.40

#料金

#参考文献