MAI model family

650文字
3分
編集

Microsoft AI は自社で開発した MAI モデル 7 体を公開した。推論の MAI-Thinking-1、Copilot 向け MAI-Code-1-Flash、画像の MAI-Image-2.5 と MAI-Image-2.5 Flash、音声合成の MAI-Voice-2 と MAI-Voice-2-Flash(後者は近日)、文字起こしの MAI-Transcribe-1.5 がそろう。いずれも第三者モデルからの蒸留なしで学習し、Microsoft Foundry や Copilot など第一方製品に加え、OpenRouter・Fireworks・Baseten でも利用できる。開発者が初めて重みを自前でチューニングできる点も新たである。

MAI-Thinking-1 は 35B 活性・総パラメータ約 1T の MoE 推論モデルで、256k トークンのコンテキスト、関数呼び出し、Chat Completions API 互換を備える。Foundry のプライベートプレビューで提供中であり、従量制 API 単価は未公表である。Artificial Analysis Intelligence Index にも未掲載である。

MAI-Code-1-Flash は活性 50 億パラメータの推論効率型コーディングモデルで、GitHub Copilot と VS Code に深く統合される。Haiku 相当の能力をより低コストで提供する位置づけである。

MAI-Image-2.5 はテキストから画像生成と画像編集の双方に対応し、Arena.ai の画像生成モデルファミリーで 3 位を記録した。Flash 版は低コスト向けである。MAI-Voice-2 は 15 言語以上の自然な音声合成と短いサンプルからの声質適応を提供する。MAI-Transcribe-1.5 は 43 言語とドメイン用語バイアスに対応し、FLEURS ベンチマークで 1 位を維持する。

配布と料金の概要は次のとおりである。

  • MAI-Thinking-1: Foundry プライベートプレビュー(単価未公表)
  • MAI-Image-2.5: テキスト入力 $5/100 万トークン、画像入力 $8、画像出力 $47
  • MAI-Image-2.5 Flash: テキスト・画像入力 $1.75、画像出力 $33
  • MAI-Voice-2: $22/100 万文字
  • MAI-Transcribe-1.5: $0.36/時間

Microsoft Frontier Tuning では、実ワークフローのトレースを用いた強化学習で MAI モデルを組織向けに適応させる。Excel 向けにチューニングした MAI は GPT 5.4 と同等の品質を最大 10 倍の効率で達成し、Mayo Clinic とは臨床推論向けフロンティアモデルの共同開発も発表した。Maia 200 シリコンとの共同設計で 1.4 倍の効率向上を得ている。

#評価(ベンダー)

モデル指標スコア比較対象・備考
MAI-Thinking-1AIME 202597.0%ポストトレーニング版
MAI-Thinking-1AIME 202694.5%ポストトレーニング版
MAI-Transcribe-1.5FLEURS WER3.7%前版 3.9% から改善、全体 1 位
MAI-Transcribe-1.5AA-WER2.4%3 位(Fun-Realtime-ASR 1.7%、Scribe v2 2.2%)
MAI-Transcribe-1.5処理速度約 276 倍リアルタイムAA 精度上位 10 モデル中で最速
MAI-Image-2.5Arena.ai 画像生成3 位モデルファミリー単位

MAI-Thinking-1 は SWE-Bench Pro で Claude Opus 4.6 と同等水準とされ、Surge による 1,276 タスクの盲検比較では Sonnet 4.6 より選好された。

#参考文献