GAUSS: Avaliação Geral de Competências Estruturadas Subjacentes em Matemática Estamos entusiasmados em lançar o GAUSS, um benchmark de IA em matemática de próxima geração, criado para superar as limitações da baixa resolução de habilidades nos benchmarks atuais. O que faz O GAUSS perfila LLMs em 12 dimensões de habilidades cognitivas, abrangendo conhecimento, raciocínio, aprendizagem e criatividade, oferecendo uma visão precisa e abrangente da capacidade matemática dos modelos. Por que é importante Ao expor forças e fraquezas em um nível detalhado, o GAUSS estabelece a base para avançar a IA em matemática de reconhecimento de padrões superficial para um raciocínio e compreensão genuínos. O que encontramos Aplicando o GAUSS ao Pensamento do GPT-5, aprendemos: ✅ Forte em recordação de taxonomia, avaliação de argumentos, verificações de plausibilidade, resumo de artigos avançados e formulação de problemas ❌ Fraco na aplicação de teoremas, computação simbólica, aplicação de estratégias de resolução de problemas, intuição geométrica e generalização. O que vem a seguir Estamos construindo conjuntos de problemas curados com rubricas através de crowdsourcing da comunidade, gráficos de habilidades para LLMs e um avaliador automático de IA, fundamentos para o treinamento de modelos em direção à superinteligência matemática. Convidamos calorosamente todos a se juntarem à comunidade GAUSS, contribuírem com problemas através do nosso portal e ajudarem a moldar o futuro da IA em Matemática! Este trabalho foi liderado por mim e Jiaxin Zhang (@JiaxinZhang626) em @hyperbolic_labs / @Caltech, juntamente com Qiuyu Ren & Tahsin Saffat em @UCBerkeley, Lily Liu (@eqhylxx) em @UCBerkeley → agora @OpenAI, Zitong Yang (@ZitongYang0) em @Stanford, Prof. Banghua Zhu (@BanghuaZ) em @nvidia / @UW, e Prof. Yi Ma (@YiMaTweets) em @UCBerkeley / @HKUniversity. Links e detalhes abaixo 👇 (1/n)