メインコンテンツへスキップ

All Posts

News bits

Qwen3-Next、コスト効率の良いモデル

AlibabaのAI研究チームがコストパフォーマンスの高いAIモデル「Qwen3-Next」を無料公開した。従来モデルと比べて10分の1以下のコストでトレーニングされながら、入力トークンが多い状況では10倍以上高速な推論処理を実現する。

Qwen3-Next-80B-A3B-BaseはMixture of Experts (MoE)アーキテクチャを採用し、800億パラメータのモデルで実際の推論では最大30億パラメータのみがアクティブになる。Gated DeltaNetとGated Attentionを3:1の割合で用いることで性能の高さとトレーニングコストの低さを両立している。

入力トークン数3万2000の場合、最初のトークンを出力するまでのスピードはQwen3-32Bと比べて10.6倍高速で、それ以降の出力速度は10倍高速。一部のベンチマークテストでGoogleのGemini-2.5-Flash-Thinkingを上回る性能を示し、Hugging Faceで商用利用可能な形で無料公開されている。

出展:Qwen3-Next: Towards Ultimate Training & Inference Efficiency

著者について

Hi there. I'm hrdtbs, a frontend expert and technical consultant. I started my career in the creative industry over 13 years ago, learning on the job as a 3DCG modeler and game engineer in the indie scene.

In 2015 I began working as a freelance web designer and engineer. I handled everything from design and development to operation and advertising, delivering comprehensive solutions for various clients.

In 2016 I joined Wemotion as CTO, where I built the engineering team from the ground up and led the development of core web and mobile applications for three years.

In 2019 I joined matsuri technologies as a Frontend Expert, and in 2020 I also began serving as a technical manager supporting streamers and content creators.

I'm so grateful to be working in this field, doing something that brings me so much joy. Thanks for stopping by.