Interactions API、一般提供

615文字
3分
編集

Google DeepMind の Interactions API が一般提供になり、Gemini モデルとエージェント向けの主インターフェースとなった。2025年12月に開始したパブリックベータを経て、スキーマが安定化した GA 版では Managed Agents、バックグラウンド実行、Gemini Omni(近日提供予定)などが加わっている。

モデル ID を渡せば推論、エージェント ID を渡せば自律タスクを、単一のエンドポイントから数行で呼び出せる。サーバー側の状態管理、ツールの組み合わせ、マルチモーダル生成を前提に設計されている。

12月のベータ以降の主な更新は次のとおりである。

  • Managed Agents: 1 回の API 呼び出しでリモート Linux サンドボックスを用意し、推論・コード実行・Web 閲覧・ファイル管理を行える。既定は Antigravity エージェントで、指示・スキル・データソースを定義したカスタムエージェントも置ける。
  • バックグラウンド実行: 任意の呼び出しに background=True を指定すると、サーバーが非同期で処理する。
  • ツール: Google Search や Google Maps などの組み込みツールと独自関数を 1 リクエストで混在できる。ツール結果に画像を含められる。
  • Deep Research: 速度重視と深度重視の 2 エージェント版、共同プランニング、ネイティブなチャート・インフォグラフィック、画像・PDF・音声によるグラウンディング。
  • メディア生成: Nano Banana 2 による画像生成、Lyria 3 による音楽、多話者 TTS による音声。
  • スキーマ: 旧来の role 構造をやめ、user_inputthoughtfunction_callmodel_output など各アクションを型付き step として扱う。
  • コスト最適化: Flex と Priority ティアでコストかレイテンシを選べる(Flex は 50% コスト削減)。エラーは該当フィールドを特定する。有料ティアでは過去の interaction を 55 日間取得できる。

Google AI Studio、Gemini API、公式ドキュメントは Interactions API を既定に切り替えた。コードスニペットはレガシー形式へ戻すトグル付きである。新規プロジェクトとアプリケーションでは Interactions API の利用が推奨される。

既存の generateContent API は引き続きフルサポートされ、当面は新しい主力 Gemini モデルも受け取る。一方、長時間実行のモデルやエージェント向けのフロンティア機能は、ステートフルなエージェントワークフロー向けに設計された Interactions API に限定提供される方向である。移行は任意のペースで進められ、フィールド対応表は移行ガイドにまとまっている。

Python と JavaScript SDK、および LiteLLM、Eigent、Agno のパートナー統合から利用できる。コーディングエージェント向けに gemini-interactions-api Skill も公開されている。

#参考文献