GAUSS:数学基础结构技能的综合评估 我们很高兴推出GAUSS,这是一个下一代数学AI基准,旨在克服当前基准中低技能分辨率的局限性。 它的功能 GAUSS在12个认知技能维度上对LLM进行分析,涵盖知识、推理、学习和创造力,提供模型数学能力的精确和全面的视图。 为什么这很重要 通过在细粒度层面上揭示优势和劣势,GAUSS为将数学AI从表层模式识别推进到真正的推理和理解奠定了基础。 我们发现了什么 将GAUSS应用于GPT-5思维,我们了解到: ✅ 在分类回忆、评估论点、可行性检查、总结高级论文和提出问题方面表现强劲 ❌ 在定理应用、符号计算、问题解决策略应用、几何直觉和概括方面表现较弱。 接下来是什么 我们正在通过社区众包构建策划的问题集和评分标准,为LLM创建技能图表,以及一个AI自动评分器,为模型训练朝向数学超级智能奠定基础。 我们热情邀请大家加入GAUSS社区,通过我们的门户贡献问题,并帮助塑造数学AI的未来! 这项工作由我和Jiaxin Zhang(@JiaxinZhang626)在@hyperbolic_labs / @Caltech领导,此外还有Qiuyu Ren和Tahsin Saffat在@UCBerkeley,Lily Liu(@eqhylxx)在@UCBerkeley → 现在在@OpenAI,Zitong Yang(@ZitongYang0)在@Stanford,Prof. Banghua Zhu(@BanghuaZ)在@nvidia / @UW,以及Prof. Yi Ma(@YiMaTweets)在@UCBerkeley / @HKUniversity。 链接和详细信息如下👇 (1/n)