Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GAUSS: Generell vurdering av underliggende strukturerte ferdigheter i matematikk
Vi er glade for å lansere GAUSS, en neste generasjons matematisk AI-benchmark bygget for å overvinne begrensningene med lav ferdighetsoppløsning i dagens benchmarks.
Hva den gjør
GAUSS profilerer LLM-er på tvers av 12 kognitive ferdighetsdimensjoner, som spenner over kunnskap, resonnement, læring og kreativitet, og gir en presis og omfattende oversikt over modellers matematiske evner.
Hvorfor det er viktig
Ved å avsløre styrker og svakheter på et finkornet nivå, legger GAUSS grunnlaget for å fremme matematisk AI fra mønstergjenkjenning på overflatenivå til ekte resonnement og forståelse.
Hva vi fant
Ved å bruke GAUSS på GPT-5-tenkning lærte vi:
✅ Sterk i taksonomi-tilbakekalling, evaluering av argumenter, plausibilitetskontroller, oppsummering av avanserte artikler og fremstilling av problemer
❌ Svak i teoremanvendelse, symbolsk beregning, problemløsningsstrategier anvendelse, geometrisk intuisjon og generalisering.
Hva blir det neste
Vi bygger kuraterte oppgavesett med rubrikker via crowdsourcing i fellesskapet, ferdighetsdiagrammer for LLM-er og en AI-automatisk gradering, grunnlag for modelltrening mot matematisk superintelligens.
Vi inviterer alle hjertelig til å bli med i GAUSS-fellesskapet, bidra med problemer gjennom portalen vår og bidra til å forme fremtiden til Math AI!
Dette arbeidet ble ledet av meg selv og Jiaxin Zhang (@JiaxinZhang626) på @hyperbolic_labs / @Caltech, sammen med Qiuyu Ren & Tahsin Saffat på @UCBerkeley, Lily Liu (@eqhylxx) på @UCBerkeley → nå @OpenAI, Zitong Yang (@ZitongYang0) på @Stanford, Prof. Banghua Zhu (@BanghuaZ) på @nvidia / @UW, og Prof. Yi Ma (@YiMaTweets) på @UCBerkeley / @HKUniversity.
Lenker og detaljer nedenfor 👇 (1/n)


Topp
Rangering
Favoritter