Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GAUSS: Avaliação Geral de Habilidades Estruturadas Subjacentes em Matemática
Estamos entusiasmados em lançar o GAUSS, um benchmark de IA matemática de última geração criado para superar as limitações de baixa resolução de habilidades nos benchmarks atuais.
O que faz
O GAUSS traça o perfil dos LLMs em 12 dimensões de habilidades cognitivas, abrangendo conhecimento, raciocínio, aprendizado e criatividade, oferecendo uma visão precisa e abrangente da capacidade matemática dos modelos.
Por que é importante
Ao expor pontos fortes e fracos em um nível refinado, o GAUSS estabelece as bases para o avanço da IA matemática do reconhecimento de padrões no nível da superfície para o raciocínio e compreensão genuínos.
O que descobrimos
Aplicando o GAUSS ao GPT-5 Thinking, aprendemos:
✅ Forte em recordação de taxonomia, avaliação de argumentos, verificações de plausibilidade, resumo de artigos avançados e apresentação de problemas
❌ Fraco na aplicação de teoremas, computação simbólica, aplicação de estratégias de resolução de problemas, intuição geométrica e generalização.
A seguir
Estamos construindo conjuntos de problemas selecionados com rubricas por meio de crowdsourcing da comunidade, gráficos de habilidades para LLMs e um avaliador automático de IA, bases para treinamento de modelos em direção à superinteligência matemática.
Convidamos calorosamente todos a se juntarem à comunidade GAUSS, contribuir com problemas por meio de nosso portal e ajudar a moldar o futuro da IA matemática!
Este trabalho foi liderado por mim e Jiaxin Zhang (@JiaxinZhang626) em @hyperbolic_labs / @Caltech, juntamente com Qiuyu Ren e Tahsin Saffat em @UCBerkeley, Lily Liu (@eqhylxx) em @UCBerkeley → agora @OpenAI, Zitong Yang (@ZitongYang0) em @Stanford, Prof. Banghua Zhu (@BanghuaZ) em @nvidia / @UW e Prof. Yi Ma (@YiMaTweets) em @UCBerkeley / @HKUniversity.
Links e detalhes abaixo 👇 (1/n)


Melhores
Classificação
Favoritos