369文字
2分
編集

Gemini Embedding 2、マルチモーダル埋め込みをGemini APIとVertex AIでプレビュー提供

Geminiアーキテクチャ由来の初のネイティブマルチモーダル埋め込みモデル「Gemini Embedding 2」が、Gemini APIおよびVertex AIでパブリックプレビュー。従来のテキスト中心の基盤から拡張し、テキスト、画像、動画、音声、最大6ページのPDFを同一embedding空間にマッピングし、100以上の言語にわたるsemantic intentを捕捉。画像のテキスト化などを挟まず音声を取り込めるほか、画像とテキストなど複数モダリティを1リクエストでインターリーブして渡す入力にも対応。RAGやセマンティック検索、感情分析、データクラスタリングなど、異種メディアをまたぐ下流タスクのパイプライン簡素化を狙いとする。

#主要な変更点

  • テキスト: 最大8192トークンの入力コンテキストをサポート
  • 画像: 1リクエストあたり最大6枚(PNG、JPEG)
  • 動画: 最大120秒(MP4、MOV)
  • 音声: 中間の文字起こしなしで取り込み・埋め込み
  • ドキュメント: 最大6ページのPDFを直接埋め込み
  • インターリーブ入力: 単一リクエストで複数モダリティを組み合わせて渡せる

#留意事項

従来の埋め込みモデルと同様にMatryoshka Representation Learning (MRL) を採用し、デフォルト3072次元からダウンスケールして出力次元を調整可能。最高品質には3072、1536、768次元の利用が推奨されている。提供はパブリックプレビューのため、本番利用ではサービス側の条件・安定性の確認を前提とする。

#参考文献