GAUSS: Valutazione Generale delle Competenze Strutturate di Base in Matematica Siamo entusiasti di lanciare GAUSS, un benchmark AI matematico di nuova generazione progettato per superare le limitazioni della bassa risoluzione delle competenze nei benchmark odierni. Cosa fa GAUSS profila i LLM attraverso 12 dimensioni di competenza cognitiva, che spaziano dalla conoscenza, al ragionamento, all'apprendimento e alla creatività, offrendo una visione precisa e completa delle capacità matematiche dei modelli. Perché è importante Esporre punti di forza e debolezza a un livello dettagliato, GAUSS getta le basi per far avanzare l'AI matematica da un riconoscimento superficiale dei modelli a un vero ragionamento e comprensione. Cosa abbiamo scoperto Applicando GAUSS al Pensiero di GPT-5, abbiamo appreso: ✅ Forte nel richiamo della tassonomia, nella valutazione degli argomenti, nei controlli di plausibilità, nel riassumere articoli avanzati e nel porre problemi ❌ Debole nell'applicazione dei teoremi, nel calcolo simbolico, nell'applicazione delle strategie di risoluzione dei problemi, nell'intuizione geometrica e nella generalizzazione. Cosa c'è dopo Stiamo costruendo set di problemi curati con rubriche tramite crowdsourcing della comunità, grafici delle competenze per i LLM e un correttore automatico AI, fondamenta per l'addestramento dei modelli verso la superintelligenza matematica. Invitiamo calorosamente tutti a unirsi alla comunità GAUSS, contribuire con problemi attraverso il nostro portale e aiutare a plasmare il futuro dell'AI matematica! Questo lavoro è stato guidato da me e Jiaxin Zhang (@JiaxinZhang626) presso @hyperbolic_labs / @Caltech, insieme a Qiuyu Ren & Tahsin Saffat presso @UCBerkeley, Lily Liu (@eqhylxx) presso @UCBerkeley → ora @OpenAI, Zitong Yang (@ZitongYang0) presso @Stanford, Prof. Banghua Zhu (@BanghuaZ) presso @nvidia / @UW, e Prof. Yi Ma (@YiMaTweets) presso @UCBerkeley / @HKUniversity. Link e dettagli qui sotto 👇 (1/n)