メインコンテンツへスキップ

All Posts

News bits

MiniMax-M1 が公開、100 万トークンのコンテキストウィンドウ

中国 MiniMax が大規模言語モデル MiniMax-M1 をオープンソース化。非常に長いコンテキストウィンドウ(入力 100 万トークン・出力 8 万トークン)を持つハイブリッド Mixture-of-Experts 推論モデル。

合計 4560 億パラメータで、トークンごとに 459 億パラメータがアクティブ。Lightning Attention メカニズムにより、DeepSeek R1 と比較して 10 万トークンコンテキストで 25%の FLOP しか消費せず、テスト時計算を効率的にスケーリング。

競技レベルの数学、コーディング、ソフトウェアエンジニアリング、エージェントツール使用、長文理解タスクで主要商用 AI モデルに匹敵する性能を発揮。SWE-bench Verified で 69.1 を記録。

トレーニング予算はわずか 53 万 4700 ドル(約 7800 万円)。Apache 2.0 ライセンスで GitHub と Hugging Face から利用可能。vLLM と Transformers での実装をサポート。

出展:MiniMax-M1

著者について

Hi there. I'm hrdtbs, a frontend expert and technical consultant. I started my career in the creative industry over 13 years ago, learning on the job as a 3DCG modeler and game engineer in the indie scene.

In 2015 I began working as a freelance web designer and engineer. I handled everything from design and development to operation and advertising, delivering comprehensive solutions for various clients.

In 2016 I joined Wemotion as CTO, where I built the engineering team from the ground up and led the development of core web and mobile applications for three years.

In 2019 I joined matsuri technologies as a Frontend Expert, and in 2020 I also began serving as a technical manager supporting streamers and content creators.

I'm so grateful to be working in this field, doing something that brings me so much joy. Thanks for stopping by.