GoogleがEmbeddingGemmaを公開、200MB未満のRAMで動作可能
GoogleがEmbeddingGemmaを公開した。308Mパラメータのコンパクトなオープン埋め込みモデルで、500M未満のモデル中最高性能を達成し、オンデバイスAIを実現する。
EmbeddingGemmaの特徴:
- 100+言語対応の多言語埋め込みモデル
- 200MB未満のRAMで動作可能
- Matryoshka表現により出力次元を768から128まで柔軟調整
- 2Kトークンのコンテキストウィンドウ
- EdgeTPUで256トークン入力時15ms未満の推論速度
Gemma 3nとの連携により、モバイルファーストのRAGパイプラインやセマンティック検索をオフラインで実現。sentence-transformers、llama.cpp、MLX、Ollama、LiteRT、transformers.jsなど主要ツールとの統合も完了しており、すぐに利用開始可能。
主なユースケース:
- 個人ファイル・メール・通知のオフライン検索
- Gemma 3nとの組み合わせによるパーソナライズドチャットボット
- モバイルエージェントのクエリ分類と関数呼び出し