Google Gemma 3n 正式リリース - モバイルファーストのマルチモーダル AI

Google が Gemma 3n の正式版をリリース。5 月のプレビューから完全版となり、モバイルデバイス向けに最適化されたマルチモーダル AI モデル。

Gemma 3n は MatFormer architecture と呼ばれる Matryoshka Transformer による入れ子構造を採用し、E2B（実効 2B）と E4B（実効 4B）の 2 サイズを提供する。画像、音声、動画、テキスト入力に対応し、テキスト出力が可能。Per-Layer Embeddings（PLE）により、E2B は 2GB、E4B は 3GB のメモリで動作する。

音声処理では自動音声認識（ASR）と音声翻訳（AST）をサポート。新しい vision encoder として MobileNet-V5-300M を搭載し、Google Pixel で 60FPS 処理が可能。

E4B 版は LMArena スコア 1300 超を達成し、100 億パラメータ未満で初めてこのベンチマークに到達。140 言語のテキスト処理と 35 言語のマルチモーダル理解に対応。

Hugging Face Transformers、llama.cpp、Google AI Edge、Ollama、MLX などの主要ツールで利用可能。Gemma 3n Impact Challenge も開催中で、賞金総額 15 万ドル。

#参考文献

Introducing Gemma 3n: The developer guide