Gemini 3.1 Flash Live公開、Live APIプレビューとSearch Live 200超地域対応
Gemini 3.1 Flash Liveは、リアルタイム対話向けに位置づけられたネイティブ音声モデル。精度と低遅延、自然な会話リズムを同時に狙う声優先のエージェント構築や、Gemini Live・Search Live上の利用者体験の更新が主眼。
- 開発者向けはGoogle AI StudioのGemini Live API(プレビュー)。エンタープライズはGemini Enterprise for Customer Experience。一般利用はSearch LiveとGemini Live。
- 複数ステップのfunction callingと制約を扱うComplexFuncBench Audioでは90.8%で、自社前モデル比でリードする数値の提示。Scale AIのAudio MultiChallengeでは「thinking」有効時に36.1%。現実の音声らしい割り込みやためらいの中での複雑な指示追従・長期推論を測るベンチマーク。
- Gemini Enterprise for Customer Experienceでは、2.5 Flash Native Audioより音高・テンポなど聴覚ニュアンスの識別と、苛立ちや困惑の表出に応じた応答調整に優れる位置づけ。雑音環境でも複雑タスクを扱う音声エージェント想定。
- コンシューマ側では、Gemini Liveが前モデルより速い応答に加え、会話の文脈を約2倍長く追える旨の説明。Search Liveは多言語対応を土台に200を超える国・地域へのグローバル展開とセットで位置づけ。
- モデルが生成する音声はすべてSynthID透かし。検出可能なAI生成コンテンツとして誤情報対策の一環。詳細はモデルカードへの参照。