Gemma 4 MTP drafters
Google は Gemma 4 ファミリー向けに Multi-Token Prediction(MTP)ドラフターを公開した。投機的デコード用の軽量ドラフターが複数トークンを先読みし、31B Dense や 26B A4B MoE などのターゲットモデルが 1 回の forward pass で一括検証する。出力品質と推論ロジックの劣化はないとされ、Apache 2.0 で Hugging Face・Kaggle から重みを取得できる。Artificial Analysis の横断指数やドラフター単体の従量 API 単価ページはなく、推論加速はローカル・セルフホスト向けの配布である。
標準的な LLM 推論はメモリ帯域が律速になり、1 トークン生成のたびに数十億パラメータを VRAM から演算ユニットへ搬送する。MTP ドラフターはターゲットの最終層活性と KV キャッシュを共有し、文脈の再計算を避ける。E2B・E4B では語彙全体への logit 計算がボトルネックになるため、埋め込み器にクラスタリングを入れて生成をさらに短縮している。Transformers では {model-id}-assistant 形式の 4 層ドラフターを assistant_model に渡すだけで有効化でき、num_assistant_tokens_schedule="heuristic" で受理率に応じたドラフト数調整も可能である。MLX、vLLM、SGLang、Ollama、LiteRT-LM、Google AI Edge Gallery(Android・iOS)でも試せる。
評価(ベンダー)
| 条件 | 速度向上(目安) |
|---|---|
| Gemma 4 全体(LiteRT-LM・MLX・Transformers・vLLM) | 最大約 3 倍(tok/s) |
| Gemma 4 26B、NVIDIA RTX PRO 6000 | 同一出力品質で待ち時間約半分 |
| 26B MoE、Apple Silicon、バッチ 4〜8 | ローカルで最大約 2.2 倍 |
| NVIDIA A100、バッチサイズ増 | 同様の傾向 |
バッチ 1 の Apple Silicon 上 MoE ルーティングは律速になりうるが、同時リクエストをまとめると GPU 遊休が減りスループットが伸びる。品質はターゲットが最終検証するため、受理されなかったドラフト以降は破棄される。