編集

OpenAIがGPT Realtimeを正式版を公開、最先端の音声対話モデル

OpenAIがRealtime APIをベータ版から正式版にアップデートし、新しい音声対話モデル「gpt-realtime」を発表。 低遅延・高信頼性の音声認識と生成、複雑な指示の理解と正確なツール呼び出し、より自然で表現豊かな音声生成、システムメッセージと開発者プロンプトの解釈能力向上などが行われた。また画像入力の対応、MPCサポートの有効化などの改善も行われた。

性能向上:

  • 英数字検出精度:82.8%(従来65.6%から向上)
  • 指示順守精度:MultiChallengeベンチマーク30.5%(従来20.6%から向上)
  • 関数呼び出し精度:ComplexFuncBench 66.5%(従来49.7%から向上)

料金:

  • 音声入力トークン:100万件あたり32ドル
  • キャッシュ済み入力:0.4ドル
  • 音声出力トークン:100万件あたり64ドル
  • 従来モデル比20%安

#参考文献

編集