GAUSS: Algemene Beoordeling van Onderliggende Gestructureerde Vaardigheden in Wiskunde We zijn enthousiast om GAUSS te lanceren, een benchmark voor wiskunde-AI van de volgende generatie, ontworpen om de beperkingen van lage vaardigheidsresolutie in de huidige benchmarks te overwinnen. Wat het doet GAUSS profileert LLM's over 12 cognitieve vaardigheidsdimensies, variërend van kennis, redeneren, leren en creativiteit, en biedt een nauwkeurig en uitgebreid overzicht van de wiskundige vaardigheden van modellen. Waarom het belangrijk is Door sterke en zwakke punten op een fijnmazig niveau bloot te leggen, legt GAUSS de basis voor de vooruitgang van wiskunde-AI van oppervlakkige patroonherkenning naar oprechte redenering en begrip. Wat we hebben ontdekt Door GAUSS toe te passen op GPT-5 Thinking, hebben we geleerd: ✅ Sterk in taxonomieherinnering, evalueren van argumenten, plausibiliteitscontroles, samenvatten van geavanceerde papers en het stellen van problemen ❌ Zwak in toepassing van stellingen, symbolische berekeningen, toepassing van probleemoplossingsstrategieën, geometrische intuïtie en generalisatie. Wat is de volgende stap We bouwen samengestelde probleemsets met rubrieken via gemeenschapscrowdsourcing, vaardigheidskaarten voor LLM's en een AI-autocorrector, fundamenten voor modeltraining richting wiskunde-superintelligentie. We nodigen iedereen van harte uit om deel uit te maken van de GAUSS-gemeenschap, problemen bij te dragen via ons portaal en te helpen de toekomst van wiskunde-AI vorm te geven! Dit werk werd geleid door mijzelf en Jiaxin Zhang (@JiaxinZhang626) bij @hyperbolic_labs / @Caltech, samen met Qiuyu Ren & Tahsin Saffat bij @UCBerkeley, Lily Liu (@eqhylxx) bij @UCBerkeley → nu @OpenAI, Zitong Yang (@ZitongYang0) bij @Stanford, Prof. Banghua Zhu (@BanghuaZ) bij @nvidia / @UW, en Prof. Yi Ma (@YiMaTweets) bij @UCBerkeley / @HKUniversity. Links en details hieronder 👇 (1/n)