Gemma 4 12B - ohiruneuni/blog

Google DeepMind は Gemma 4 12B Unified を公開した。総パラメータ約 11.95B の dense モデルで、従来の Gemma 4 が持つ別系の vision・audio エンコーダーを排し、画像パッチと生音声を LLM の埋め込み空間へ直接射影する。E4B と 26B A4B MoE の間を埋めるサイズで、Gemma ファミリー初の中規模モデルとしてネイティブ音声入力を扱う。Apache 2.0 で、コンテキストは 256K トークン、140 言語以上の事前学習と function calling・thinking モードに対応する。

16GB VRAM または unified memory のノート PC 上でのローカル実行を想定している。非量子化 bfloat16 では約 26.7GB、SFP8 で約 13.4GB、Q4_0 で約 6.7GB の重みサイズである。推論遅延低減向けに Multi-Token Prediction（MTP）ドラフター付きチェックポイントも配布する。重みは Hugging Face と Kaggle から取得でき、LM Studio、Ollama、Google AI Edge Gallery、Google AI Edge Eloquent、LiteRT-LM CLI、Transformers、llama.cpp、MLX、SGLang、vLLM、Unsloth などで試せる。Apple Silicon 向け macOS アプリでは Gallery が Gemma 4 12B をオフライン実行し、Eloquent が音声編集入力に対応する。LiteRT-LM の litert-lm serve は OpenAI 互換のローカル API サーバーとして Continue や OpenCode などに接続できる。本番は Vertex AI Model Garden、Cloud Run、GKE 経由のセルフデプロイも案内されている。31B や 26B A4B のような従量 API 単価ページは 12B 向けには用意されておらず、Artificial Analysis Intelligence Index にも未掲載である。

#アーキテクチャ

Vision: 約 35M パラメータの埋め込みモジュールが 48×48 ピクセルパッチを 1 回の行列積で LLM 次元へ射影し、座標 lookup で位置情報を付与する
Audio: 16 kHz 音声を 40ms フレーム（640 float）に分割し、Conformer エンコーダーを介さず線形射影する
Fine-tuning: vision・audio・text が同一重みを共有するため、LoRA やフルチューニングでモダリティ全体を 1 パスで更新できる

#評価（ベンダー）

指標	Gemma 4 12B	Gemma 4 26B A4B	Gemma 4 E4B
MMLU Pro	77.2%	82.6%	69.4%
AIME 2026（ツールなし）	77.5%	88.3%	42.5%
LiveCodeBench v6	72.0%	77.1%	52.0%
GPQA Diamond	78.8%	82.3%	58.6%
Tau2（3 タスク平均）	69.0%	68.2%	42.2%
MMMU Pro	69.1%	73.8%	52.6%
MRCR v2 8 needle 128k	43.4%	44.1%	25.4%

12B は Tau2 で 26B A4B を上回り、MMLU Pro や LiveCodeBench でも 26B に近い帯に入る。メモリフットプリントは 26B MoE の半分未満とされる。

#アーキテクチャ

#評価（ベンダー）

#参考文献