編集

Gemini 3.1 Flash Live公開、Live APIプレビューとSearch Live 200超地域対応

Gemini 3.1 Flash Liveは、リアルタイム対話向けに位置づけられたネイティブ音声モデル。精度と低遅延、自然な会話リズムを同時に狙う声優先のエージェント構築や、Gemini Live・Search Live上の利用者体験の更新が主眼。

  • 開発者向けはGoogle AI StudioのGemini Live API(プレビュー)。エンタープライズはGemini Enterprise for Customer Experience。一般利用はSearch LiveとGemini Live。
  • 複数ステップのfunction callingと制約を扱うComplexFuncBench Audioでは90.8%で、自社前モデル比でリードする数値の提示。Scale AIのAudio MultiChallengeでは「thinking」有効時に36.1%。現実の音声らしい割り込みやためらいの中での複雑な指示追従・長期推論を測るベンチマーク。
  • Gemini Enterprise for Customer Experienceでは、2.5 Flash Native Audioより音高・テンポなど聴覚ニュアンスの識別と、苛立ちや困惑の表出に応じた応答調整に優れる位置づけ。雑音環境でも複雑タスクを扱う音声エージェント想定。
  • コンシューマ側では、Gemini Liveが前モデルより速い応答に加え、会話の文脈を約2倍長く追える旨の説明。Search Liveは多言語対応を土台に200を超える国・地域へのグローバル展開とセットで位置づけ。
  • モデルが生成する音声はすべてSynthID透かし。検出可能なAI生成コンテンツとして誤情報対策の一環。詳細はモデルカードへの参照。

#参考文献

編集