physics-intern、CritPt を改善する物理学リサーチエージェント

158文字
1分
編集

Hugging Face は理論物理の研究レベル問題を対象に、問題分解と役割分担したサブエージェント群で解く枠組み physics-intern を公開した。CritPt(70 問の理論物理ベンチマーク)で、ワンショット推論より高い正答率を得たとしている。

  • CritPt のリーダーボード上のベースラインに対し、Gemini 3 Flash を 8.6% から 15.7% に引き上げた
  • Gemini 3.1 Pro は 17.7% から 31.4% に上がり、CritPt リーダーボードの最高値(30.6%)を上回ったとしている
  • Kimi K2.6 は 8.0% から 21.4% に上がったとしている

#参考文献