GAUSS: Avaliação Geral de Habilidades Estruturadas Subjacentes em Matemática Estamos entusiasmados em lançar o GAUSS, um benchmark de IA matemática de última geração criado para superar as limitações de baixa resolução de habilidades nos benchmarks atuais. O que faz O GAUSS traça o perfil dos LLMs em 12 dimensões de habilidades cognitivas, abrangendo conhecimento, raciocínio, aprendizado e criatividade, oferecendo uma visão precisa e abrangente da capacidade matemática dos modelos. Por que é importante Ao expor pontos fortes e fracos em um nível refinado, o GAUSS estabelece as bases para o avanço da IA matemática do reconhecimento de padrões no nível da superfície para o raciocínio e compreensão genuínos. O que descobrimos Aplicando o GAUSS ao GPT-5 Thinking, aprendemos: ✅ Forte em recordação de taxonomia, avaliação de argumentos, verificações de plausibilidade, resumo de artigos avançados e apresentação de problemas ❌ Fraco na aplicação de teoremas, computação simbólica, aplicação de estratégias de resolução de problemas, intuição geométrica e generalização. A seguir Estamos construindo conjuntos de problemas selecionados com rubricas por meio de crowdsourcing da comunidade, gráficos de habilidades para LLMs e um avaliador automático de IA, bases para treinamento de modelos em direção à superinteligência matemática. Convidamos calorosamente todos a se juntarem à comunidade GAUSS, contribuir com problemas por meio de nosso portal e ajudar a moldar o futuro da IA matemática! Este trabalho foi liderado por mim e Jiaxin Zhang (@JiaxinZhang626) em @hyperbolic_labs / @Caltech, juntamente com Qiuyu Ren e Tahsin Saffat em @UCBerkeley, Lily Liu (@eqhylxx) em @UCBerkeley → agora @OpenAI, Zitong Yang (@ZitongYang0) em @Stanford, Prof. Banghua Zhu (@BanghuaZ) em @nvidia / @UW e Prof. Yi Ma (@YiMaTweets) em @UCBerkeley / @HKUniversity. Links e detalhes abaixo 👇 (1/n)