MAI model family - ohiruneuni/blog

Microsoft AI は自社で開発した MAI モデル 7 体を公開した。推論の MAI-Thinking-1、Copilot 向け MAI-Code-1-Flash、画像の MAI-Image-2.5 と MAI-Image-2.5 Flash、音声合成の MAI-Voice-2 と MAI-Voice-2-Flash（後者は近日）、文字起こしの MAI-Transcribe-1.5 がそろう。いずれも第三者モデルからの蒸留なしで学習し、Microsoft Foundry や Copilot など第一方製品に加え、OpenRouter・Fireworks・Baseten でも利用できる。開発者が初めて重みを自前でチューニングできる点も新たである。

MAI-Thinking-1 は 35B 活性・総パラメータ約 1T の MoE 推論モデルで、256k トークンのコンテキスト、関数呼び出し、Chat Completions API 互換を備える。Foundry のプライベートプレビューで提供中であり、従量制 API 単価は未公表である。Artificial Analysis Intelligence Index にも未掲載である。

MAI-Code-1-Flash は活性 50 億パラメータの推論効率型コーディングモデルで、GitHub Copilot と VS Code に深く統合される。Haiku 相当の能力をより低コストで提供する位置づけである。

MAI-Image-2.5 はテキストから画像生成と画像編集の双方に対応し、Arena.ai の画像生成モデルファミリーで 3 位を記録した。Flash 版は低コスト向けである。MAI-Voice-2 は 15 言語以上の自然な音声合成と短いサンプルからの声質適応を提供する。MAI-Transcribe-1.5 は 43 言語とドメイン用語バイアスに対応し、FLEURS ベンチマークで 1 位を維持する。

配布と料金の概要は次のとおりである。

MAI-Thinking-1: Foundry プライベートプレビュー（単価未公表）
MAI-Image-2.5: テキスト入力 $5/100 万トークン、画像入力 $8、画像出力 $47
MAI-Image-2.5 Flash: テキスト・画像入力 $1.75、画像出力 $33
MAI-Voice-2: $22/100 万文字
MAI-Transcribe-1.5: $0.36/時間

Microsoft Frontier Tuning では、実ワークフローのトレースを用いた強化学習で MAI モデルを組織向けに適応させる。Excel 向けにチューニングした MAI は GPT 5.4 と同等の品質を最大 10 倍の効率で達成し、Mayo Clinic とは臨床推論向けフロンティアモデルの共同開発も発表した。Maia 200 シリコンとの共同設計で 1.4 倍の効率向上を得ている。

#評価（ベンダー）

モデル	指標	スコア	比較対象・備考
MAI-Thinking-1	AIME 2025	97.0%	ポストトレーニング版
MAI-Thinking-1	AIME 2026	94.5%	ポストトレーニング版
MAI-Transcribe-1.5	FLEURS WER	3.7%	前版 3.9% から改善、全体 1 位
MAI-Transcribe-1.5	AA-WER	2.4%	3 位（Fun-Realtime-ASR 1.7%、Scribe v2 2.2%）
MAI-Transcribe-1.5	処理速度	約 276 倍リアルタイム	AA 精度上位 10 モデル中で最速
MAI-Image-2.5	Arena.ai 画像生成	3 位	モデルファミリー単位

MAI-Thinking-1 は SWE-Bench Pro で Claude Opus 4.6 と同等水準とされ、Surge による 1,276 タスクの盲検比較では Sonnet 4.6 より選好された。

#評価（ベンダー）

#参考文献