編集

GoogleがEmbeddingGemmaを公開、200MB未満のRAMで動作可能

GoogleがEmbeddingGemmaを公開した。308Mパラメータのコンパクトなオープン埋め込みモデルで、500M未満のモデル中最高性能を達成し、オンデバイスAIを実現する。

EmbeddingGemmaの特徴:

  • 100+言語対応の多言語埋め込みモデル
  • 200MB未満のRAMで動作可能
  • Matryoshka表現により出力次元を768から128まで柔軟調整
  • 2Kトークンのコンテキストウィンドウ
  • EdgeTPUで256トークン入力時15ms未満の推論速度

Gemma 3nとの連携により、モバイルファーストのRAGパイプラインやセマンティック検索をオフラインで実現。sentence-transformers、llama.cpp、MLX、Ollama、LiteRT、transformers.jsなど主要ツールとの統合も完了しており、すぐに利用開始可能。

主なユースケース:

  • 個人ファイル・メール・通知のオフライン検索
  • Gemma 3nとの組み合わせによるパーソナライズドチャットボット
  • モバイルエージェントのクエリ分類と関数呼び出し

#参考文献

編集