NII、LLM-jp-4 8Bと32B-A3B MoEをオープンソースで公開
国立情報学研究所の大規模言語モデル研究開発センター(LLMC)が主宰する LLM-jp で、フルスクラッチ学習した「LLM-jp-4 8Bモデル」(約86億パラメータ、Llama 2 アーキテクチャ)と MoE の「LLM-jp-4 32B-A3Bモデル」(総約320億パラメータ・総エキスパート128・アクティブ約38億・Qwen3 MoE アーキテクチャ)をオープンソースライセンスで一般公開。学習はオープンソースAIの定義(OSAID)に配慮し、第三者が入手可能なコーパスを整備し、公開データ・政府・国会文書・合成データなどからなる約12兆トークンを使用。計算は産総研の ABCI 3.0。透明性・信頼性研究の基盤として位置づけ、より大規模モデルは2026年度に順次公開予定。
学習パイプラインでは、事前学習コーパスは総計約19.5兆トークン規模からサブコーパス配分を最適化し約10.5兆トークンを使用。続く中間学習で Instruction Pre-training データや LLM 合成データを含む計1.2兆トークン。英日のインストラクションチューニングは22種類。推論コンテキストは最大約6万5千トークンまで。
ベンチマークは llm-jp-judge で GPT-5.4 による LLM-as-a-Judge を実施。日本語 MT-Bench と英語 MT-Bench の主な比較は次のとおり。
| モデル | 日本語 MT-Bench | MT-Bench |
|---|---|---|
| LLM-jp-4 8B | 7.54 | 7.79 |
| LLM-jp-4 32B-A3B | 7.82 | 7.86 |
| GPT-4o | 7.29 | 7.69 |
| gpt-oss-20b | 7.33 | 7.85 |
| Qwen3-8B | 7.14 | 7.69 |
別枠の llm-jp-eval v2.1.3(42種類の言語資源ベース)では、両公開モデルとも日本語で gpt-oss-20b および Qwen3-8B と同等の性能を確認。LLM-jp が開発したチューニング用データの一部は順次公開予定。