Cloudflare AI Gateway、ドル建て利用予算の設定
Cloudflare AI Gatewayは、アプリと OpenAI・Anthropic・Google などのプロバイダの間に入り、統合課金・ログ・キャッシュ・レート制限・ガードレールをまとめて扱う。共有 API キーだけでは誰がいくら使ったか追えないという課題に対し、ドル建ての利用予算(spend limits)と、Cloudflare Access 経由の本人確認付き予算・ルーティングが発表された。
spend limits
spend limits はトークン数ではなくドル建ての予算で、リクエストごとのモデル料金に基づき累積支出をリアルタイム追跡する。レート制限とは独立して動作する。
予算の適用範囲は次のとおり。
- モデル、プロバイダ、ユーザー・チーム・アプリケーションなど管理者定義のカスタム属性の任意の組み合わせ
- 固定ウィンドウ(月初・月曜・深夜など)またはローリング
- 日次・週次・月次
上限到達時は既定でリクエストをブロックする。Dynamic Routes を使えば、上限後にフォールバックモデルへルーティングしてワークフローを継続できる。上限到達時のアラート送信は今後追加予定である。ダッシュボードまたは API から設定でき、全 AI Gateway プランでオープンベータとして提供される。
Identity 連携予算(クローズドベータ)
アプリ側がメタデータを渡す spend limits とは別に、Cloudflare Access と既存の IdP を組み合わせた本人確認付き予算・ポリシーがクローズドベータで案内された。Access 認証時の JWT から identity を抽出し、リクエストに付与する。
- ユーザー単位の月次予算(例: 個人貢献者 500 USD、シニアエンジニア 2,000 USD)。上限到達時は安価なモデルへダウングレードまたはブロック
- IdP グループに紐づくチーム別モデルポリシー(ML チームは Claude Opus と GPT-4o、インターンは Workers AI のオープンソースモデルなど)
- CI/CD や自律エージェント向けに Access サービストークンで名前付き identity を付与し、エージェント単位のトークン消費を分離
ログには認証済み identity(メール、IdP グループ、サービストークン名)が含まれ、分析基盤へエクスポートしてユーザー・チーム別コストを把握できる。開発者やエージェントは OAuth のデバイスコードフローで認証し、カスタム Worker や JWT 解析を自前で書く必要はない。
タスク内容に応じたモデル自動ルーティングによるコスト最適化は開発中である。