GAUSS: Generell vurdering av underliggende strukturerte ferdigheter i matematikk Vi er glade for å lansere GAUSS, en neste generasjons matematisk AI-benchmark bygget for å overvinne begrensningene med lav ferdighetsoppløsning i dagens benchmarks. Hva den gjør GAUSS profilerer LLM-er på tvers av 12 kognitive ferdighetsdimensjoner, som spenner over kunnskap, resonnement, læring og kreativitet, og gir en presis og omfattende oversikt over modellers matematiske evner. Hvorfor det er viktig Ved å avsløre styrker og svakheter på et finkornet nivå, legger GAUSS grunnlaget for å fremme matematisk AI fra mønstergjenkjenning på overflatenivå til ekte resonnement og forståelse. Hva vi fant Ved å bruke GAUSS på GPT-5-tenkning lærte vi: ✅ Sterk i taksonomi-tilbakekalling, evaluering av argumenter, plausibilitetskontroller, oppsummering av avanserte artikler og fremstilling av problemer ❌ Svak i teoremanvendelse, symbolsk beregning, problemløsningsstrategier anvendelse, geometrisk intuisjon og generalisering. Hva blir det neste Vi bygger kuraterte oppgavesett med rubrikker via crowdsourcing i fellesskapet, ferdighetsdiagrammer for LLM-er og en AI-automatisk gradering, grunnlag for modelltrening mot matematisk superintelligens. Vi inviterer alle hjertelig til å bli med i GAUSS-fellesskapet, bidra med problemer gjennom portalen vår og bidra til å forme fremtiden til Math AI! Dette arbeidet ble ledet av meg selv og Jiaxin Zhang (@JiaxinZhang626) på @hyperbolic_labs / @Caltech, sammen med Qiuyu Ren & Tahsin Saffat på @UCBerkeley, Lily Liu (@eqhylxx) på @UCBerkeley → nå @OpenAI, Zitong Yang (@ZitongYang0) på @Stanford, Prof. Banghua Zhu (@BanghuaZ) på @nvidia / @UW, og Prof. Yi Ma (@YiMaTweets) på @UCBerkeley / @HKUniversity. Lenker og detaljer nedenfor 👇 (1/n)