DeepSeek V4 - ohiruneuni/blog

DeepSeek は V4 シリーズのプレビューを公表した。MoE の DeepSeek-V4-Pro（総パラメータ約 1.6T・活性約 49B）と DeepSeek-V4-Flash（総約 284B・活性約 13B）がそろい、いずれもコンテキスト長は 100 万トークンである。アーキテクチャ面では Compressed Sparse Attention と Heavily Compressed Attention を組み合わせたハイブリッド注意、Manifold-Constrained Hyper-Connections、Muon オプティマイザを挙げ、100 万トークン設定では V3.2 比で単トークン推論 FLOPs 27%、KV キャッシュ 10% に抑えられるとしている。事前学習は 32T トークン超の多様コーパスを経て、領域別エキスパートの SFT と GRPO による RL、その後の方策内蒸留で一本化する二段階のポストトレーニングとしている。Instruct 版の重みは MoE 専門家を FP4・その他を主に FP8 とする混在精度で配布し、ライセンスは MIT である。チャットは Jinja テンプレートではなくリポジトリ内の encoding スクリプトで OpenAI 互換メッセージを符号化する方式とし、ローカルでは Think Max 推論に少なくとも 384k トークンの文脈を推奨している。

API では deepseek-v4-flash と deepseek-v4-pro が列挙され、コンテキスト 100 万・最大出力 38.4 万トークン、JSON やツール呼び出し、FIM（Flash は非思考モードのみ）などを謳っている。互換のため deepseek-chat と deepseek-reasoner はそれぞれ Flash の非思考・思考モードに対応するが、将来的に廃止予定と記載されている。企業の公式トップでは同一プレビューが Web・モバイルアプリ・API で利用できる旨が案内されている。

#性能

モデル	Intelligence Index	出力速度 (tok/s)	コンテキスト
DeepSeek V4 Flash (Max)	47	84	100 万
Kimi K2.6	54	112	256k
MiMo-V2.5-Pro	54	61	100 万
DeepSeek V3.2	42	35	128k

Artificial Analysis Intelligence Index v4.0 では、同系列の V3.2 より上振れしつつ Kimi K2.6 や MiMo-V2.5 Pro より指数は低めの帯にあり、公称の長コンテキストと測定された出力速度の組み合わせが目立つ。

#API 価格の比較

モデル	入力 ($/1M)	出力 ($/1M)
deepseek-v4-flash（キャッシュミス）	0.14	0.28
deepseek-v4-pro（キャッシュミス）	1.74	3.48
gpt-5.4 mini	0.75	4.50

キャッシュヒット時の入力単価はいずれの V4 API もより低く設定されている。V4 Flash は gpt-5.4 mini より入出力とも安い一方、V4 Pro は Flash の十数倍の入力単価で長文・高負荷向けの位置づけになる。

#性能

#API 価格の比較

#参考文献