Gemma 4 12B

508文字
3分
編集

Google DeepMind は Gemma 4 12B Unified を公開した。総パラメータ約 11.95B の dense モデルで、従来の Gemma 4 が持つ別系の vision・audio エンコーダーを排し、画像パッチと生音声を LLM の埋め込み空間へ直接射影する。E4B と 26B A4B MoE の間を埋めるサイズで、Gemma ファミリー初の中規模モデルとしてネイティブ音声入力を扱う。Apache 2.0 で、コンテキストは 256K トークン、140 言語以上の事前学習と function calling・thinking モードに対応する。

16GB VRAM または unified memory のノート PC 上でのローカル実行を想定している。非量子化 bfloat16 では約 26.7GB、SFP8 で約 13.4GB、Q4_0 で約 6.7GB の重みサイズである。推論遅延低減向けに Multi-Token Prediction(MTP)ドラフター付きチェックポイントも配布する。重みは Hugging Face と Kaggle から取得でき、LM Studio、Ollama、Google AI Edge Gallery、Google AI Edge Eloquent、LiteRT-LM CLI、Transformers、llama.cpp、MLX、SGLang、vLLM、Unsloth などで試せる。Apple Silicon 向け macOS アプリでは Gallery が Gemma 4 12B をオフライン実行し、Eloquent が音声編集入力に対応する。LiteRT-LM の litert-lm serve は OpenAI 互換のローカル API サーバーとして Continue や OpenCode などに接続できる。本番は Vertex AI Model Garden、Cloud Run、GKE 経由のセルフデプロイも案内されている。31B や 26B A4B のような従量 API 単価ページは 12B 向けには用意されておらず、Artificial Analysis Intelligence Index にも未掲載である。

#アーキテクチャ

  • Vision: 約 35M パラメータの埋め込みモジュールが 48×48 ピクセルパッチを 1 回の行列積で LLM 次元へ射影し、座標 lookup で位置情報を付与する
  • Audio: 16 kHz 音声を 40ms フレーム(640 float)に分割し、Conformer エンコーダーを介さず線形射影する
  • Fine-tuning: vision・audio・text が同一重みを共有するため、LoRA やフルチューニングでモダリティ全体を 1 パスで更新できる

#評価(ベンダー)

指標Gemma 4 12BGemma 4 26B A4BGemma 4 E4B
MMLU Pro77.2%82.6%69.4%
AIME 2026(ツールなし)77.5%88.3%42.5%
LiveCodeBench v672.0%77.1%52.0%
GPQA Diamond78.8%82.3%58.6%
Tau2(3 タスク平均)69.0%68.2%42.2%
MMMU Pro69.1%73.8%52.6%
MRCR v2 8 needle 128k43.4%44.1%25.4%

12B は Tau2 で 26B A4B を上回り、MMLU Pro や LiveCodeBench でも 26B に近い帯に入る。メモリフットプリントは 26B MoE の半分未満とされる。

#参考文献