編集

Gemini API、Flex・Priority inference tier を追加し service_tier でルーティング可能に

Gemini API に Flex と Priority の inference tier が追加され、同一の同期エンドポイント上で service_tier を指定して背景寄りのジョブを Flex、対話寄りのジョブを Priority に振り分けられるようになった。エージェント用途の拡大に伴い、高トラフィックのバックグラウンド処理とチャットボット・copilot など即応が要る対話処理を、従来は標準の同期 serving と非同期 Batch API の二系統に分けて設計しがちだったが、そのギャップを埋め、非同期ジョブ管理を増やさずに用途別のコストと信頼性のトレードオフを選べる構成に寄せる狙い。

#料金

tier 間の関係は最適化ドキュメントの表どおりで、Flex は Standard の 50% ディスカウント、Priority は Standard より 75〜100% 高いレート帯とされている。いずれもトークン課金。Gemini API pricing に記載。

以下はGemini 3.1 Pro Previewの例:

Tier入力(プロンプト ≤200k / >200k)出力(思考トークン含む、同左)
Standard2.00/2.00 / 4.0012.00/12.00 / 18.00
Flex1.00/1.00 / 2.006.00/6.00 / 9.00
Priority3.60/3.60 / 7.2021.60/21.60 / 32.40

#参考文献

編集