Gemma 4公開、Apache 2.0でE2B〜31Bのオープンモデル4サイズ

Gemma 4は、高度な推論とエージェント的ワークフロー向けに設計されたオープンモデルファミリー。Gemini 3と同じ世界水準の研究・技術を土台にし、自前ハード上で動かせるオープン側の選択肢としてGemini製品群と併用想定。140語超をネイティブにカバーする訓練、商用許容のApache 2.0ライセンス。

4サイズは実効2B（E2B）、実効4B（E4B）、26B Mixture of Experts（MoE）、31B Dense。Arena AIのテキストリーダーボード（オープンソース枠、2026年4月1日時点の記述）では31Bが第3位、26Bが第6位。同一ボード上の比較では、パラメータ約20倍のモデルを上回る位置づけ。エッジ向けE2B／E4Bはマルチモーダル・低遅延・エコシステム連携を優先し、E2BとE4Bはネイティブ音声入力による認識・理解に対応。全サイズが可変解像度の動画・画像をネイティブ処理し、OCRやチャート理解を強調している。

エージェント構築向けにfunction calling、構造化JSON出力、ネイティブなシステム指示をサポート。
コード生成をオフライン重視のローカル開発支援に位置づけ。
コンテキストはエッジモデル128K、大規模モデル最大256K。
26B MoEは推論時に約38億パラメータのみ活性化し、レイテンシとトークン秒あたり速度を重視。31B Denseは品質とファインチューニング基盤向け。
非量子化bfloat16は単一の80GB NVIDIA H100 GPUに収まる想定。量子化版はコンシューマGPU上のIDE・コーディング支援・エージェント用途を想定。
AndroidはAICore Developer Previewでエージェントフローの試作が可能で、Gemini Nano 4との前向き互換を打ち出している。PixelチームおよびQualcomm、MediaTekなどとの協業で、スマートフォン・Raspberry Pi・NVIDIA Jetson Orin Nanoなどでのオフライン近傍ゼロレイテンシ動作を想定したエッジ展開。

重みはHugging Face・Kaggle・Ollamaから、ブラウザ試用はGoogle AI Studio（31B・26B MoE）とAI Edge Gallery（E4B・E2B）から。本番はVertex AI・Cloud Run・GKEなどGoogle Cloud経由。vLLM・llama.cpp・MLXなどローカル推論スタックへの初日対応もセットで提示。追加ベンチマークはモデルカードへの参照。

#参考文献