Gemini API、Flex・Priority inference tier を追加し service_tier でルーティング可能に
Gemini API に Flex と Priority の inference tier が追加され、同一の同期エンドポイント上で service_tier を指定して背景寄りのジョブを Flex、対話寄りのジョブを Priority に振り分けられるようになった。エージェント用途の拡大に伴い、高トラフィックのバックグラウンド処理とチャットボット・copilot など即応が要る対話処理を、従来は標準の同期 serving と非同期 Batch API の二系統に分けて設計しがちだったが、そのギャップを埋め、非同期ジョブ管理を増やさずに用途別のコストと信頼性のトレードオフを選べる構成に寄せる狙い。
料金
tier 間の関係は最適化ドキュメントの表どおりで、Flex は Standard の 50% ディスカウント、Priority は Standard より 75〜100% 高いレート帯とされている。いずれもトークン課金。Gemini API pricing に記載。
以下はGemini 3.1 Pro Previewの例:
| Tier | 入力(プロンプト ≤200k / >200k) | 出力(思考トークン含む、同左) |
|---|---|---|
| Standard | 4.00 | 18.00 |
| Flex | 2.00 | 9.00 |
| Priority | 7.20 | 32.40 |