Gemma 4 MTP drafters - ohiruneuni/blog

Google は Gemma 4 ファミリー向けに Multi-Token Prediction（MTP）ドラフターを公開した。投機的デコード用の軽量ドラフターが複数トークンを先読みし、31B Dense や 26B A4B MoE などのターゲットモデルが 1 回の forward pass で一括検証する。出力品質と推論ロジックの劣化はないとされ、Apache 2.0 で Hugging Face・Kaggle から重みを取得できる。Artificial Analysis の横断指数やドラフター単体の従量 API 単価ページはなく、推論加速はローカル・セルフホスト向けの配布である。

標準的な LLM 推論はメモリ帯域が律速になり、1 トークン生成のたびに数十億パラメータを VRAM から演算ユニットへ搬送する。MTP ドラフターはターゲットの最終層活性と KV キャッシュを共有し、文脈の再計算を避ける。E2B・E4B では語彙全体への logit 計算がボトルネックになるため、埋め込み器にクラスタリングを入れて生成をさらに短縮している。Transformers では {model-id}-assistant 形式の 4 層ドラフターを assistant_model に渡すだけで有効化でき、num_assistant_tokens_schedule="heuristic" で受理率に応じたドラフト数調整も可能である。MLX、vLLM、SGLang、Ollama、LiteRT-LM、Google AI Edge Gallery（Android・iOS）でも試せる。

#評価（ベンダー）

条件	速度向上（目安）
Gemma 4 全体（LiteRT-LM・MLX・Transformers・vLLM）	最大約 3 倍（tok/s）
Gemma 4 26B、NVIDIA RTX PRO 6000	同一出力品質で待ち時間約半分
26B MoE、Apple Silicon、バッチ 4〜8	ローカルで最大約 2.2 倍
NVIDIA A100、バッチサイズ増	同様の傾向

バッチ 1 の Apple Silicon 上 MoE ルーティングは律速になりうるが、同時リクエストをまとめると GPU 遊休が減りスループットが伸びる。品質はターゲットが最終検証するため、受理されなかったドラフト以降は破棄される。

#評価（ベンダー）

#参考文献