Gemma 4 12B
Google DeepMind は Gemma 4 12B Unified を公開した。総パラメータ約 11.95B の dense モデルで、従来の Gemma 4 が持つ別系の vision・audio エンコーダーを排し、画像パッチと生音声を LLM の埋め込み空間へ直接射影する。E4B と 26B A4B MoE の間を埋めるサイズで、Gemma ファミリー初の中規模モデルとしてネイティブ音声入力を扱う。Apache 2.0 で、コンテキストは 256K トークン、140 言語以上の事前学習と function calling・thinking モードに対応する。
16GB VRAM または unified memory のノート PC 上でのローカル実行を想定している。非量子化 bfloat16 では約 26.7GB、SFP8 で約 13.4GB、Q4_0 で約 6.7GB の重みサイズである。推論遅延低減向けに Multi-Token Prediction(MTP)ドラフター付きチェックポイントも配布する。重みは Hugging Face と Kaggle から取得でき、LM Studio、Ollama、Google AI Edge Gallery、Google AI Edge Eloquent、LiteRT-LM CLI、Transformers、llama.cpp、MLX、SGLang、vLLM、Unsloth などで試せる。Apple Silicon 向け macOS アプリでは Gallery が Gemma 4 12B をオフライン実行し、Eloquent が音声編集入力に対応する。LiteRT-LM の litert-lm serve は OpenAI 互換のローカル API サーバーとして Continue や OpenCode などに接続できる。本番は Vertex AI Model Garden、Cloud Run、GKE 経由のセルフデプロイも案内されている。31B や 26B A4B のような従量 API 単価ページは 12B 向けには用意されておらず、Artificial Analysis Intelligence Index にも未掲載である。
アーキテクチャ
- Vision: 約 35M パラメータの埋め込みモジュールが 48×48 ピクセルパッチを 1 回の行列積で LLM 次元へ射影し、座標 lookup で位置情報を付与する
- Audio: 16 kHz 音声を 40ms フレーム(640 float)に分割し、Conformer エンコーダーを介さず線形射影する
- Fine-tuning: vision・audio・text が同一重みを共有するため、LoRA やフルチューニングでモダリティ全体を 1 パスで更新できる
評価(ベンダー)
| 指標 | Gemma 4 12B | Gemma 4 26B A4B | Gemma 4 E4B |
|---|---|---|---|
| MMLU Pro | 77.2% | 82.6% | 69.4% |
| AIME 2026(ツールなし) | 77.5% | 88.3% | 42.5% |
| LiveCodeBench v6 | 72.0% | 77.1% | 52.0% |
| GPQA Diamond | 78.8% | 82.3% | 58.6% |
| Tau2(3 タスク平均) | 69.0% | 68.2% | 42.2% |
| MMMU Pro | 69.1% | 73.8% | 52.6% |
| MRCR v2 8 needle 128k | 43.4% | 44.1% | 25.4% |
12B は Tau2 で 26B A4B を上回り、MMLU Pro や LiveCodeBench でも 26B に近い帯に入る。メモリフットプリントは 26B MoE の半分未満とされる。