GAUSS:數學基礎結構技能的綜合評估 我們很高興推出GAUSS,這是一個下一代數學AI基準,旨在克服當前基準中低技能分辨率的侷限性。 它的功能 GAUSS在12個認知技能維度上對LLM進行分析,涵蓋知識、推理、學習和創造力,提供模型數學能力的精確和全面的視圖。 為什麼這很重要 通過在細粒度層面上揭示優勢和劣勢,GAUSS為將數學AI從表層模式識別推進到真正的推理和理解奠定了基礎。 我們發現了什麼 將GAUSS應用於GPT-5思維,我們瞭解到: ✅ 在分類回憶、評估論點、可行性檢查、總結高級論文和提出問題方面表現強勁 ❌ 在定理應用、符號計算、問題解決策略應用、幾何直覺和概括方面表現較弱。 接下來是什麼 我們正在通過社區眾包構建策劃的問題集和評分標準,為LLM創建技能圖表,以及一個AI自動評分器,為模型訓練朝向數學超級智能奠定基礎。 我們熱情邀請大家加入GAUSS社區,通過我們的門戶貢獻問題,並幫助塑造數學AI的未來! 這項工作由我和Jiaxin Zhang(@JiaxinZhang626)在@hyperbolic_labs / @Caltech領導,此外還有Qiuyu Ren和Tahsin Saffat在@UCBerkeley,Lily Liu(@eqhylxx)在@UCBerkeley → 現在在@OpenAI,Zitong Yang(@ZitongYang0)在@Stanford,Prof. Banghua Zhu(@BanghuaZ)在@nvidia / @UW,以及Prof. Yi Ma(@YiMaTweets)在@UCBerkeley / @HKUniversity。 鏈接和詳細信息如下👇 (1/n)