GAUSS : Évaluation Générale des Compétences Structurées Sous-Jacentes en Mathématiques Nous sommes ravis de lancer GAUSS, un benchmark d'IA mathématique de nouvelle génération conçu pour surmonter les limitations de la faible résolution des compétences dans les benchmarks actuels. Ce qu'il fait GAUSS profile les LLMs à travers 12 dimensions de compétences cognitives, englobant la connaissance, le raisonnement, l'apprentissage et la créativité, offrant une vue précise et complète des capacités mathématiques des modèles. Pourquoi c'est important En exposant les forces et les faiblesses à un niveau détaillé, GAUSS jette les bases pour faire progresser l'IA mathématique d'une reconnaissance de motifs superficielle vers un véritable raisonnement et une compréhension. Ce que nous avons trouvé En appliquant GAUSS à la pensée de GPT-5, nous avons appris : ✅ Fort en rappel de taxonomie, évaluation des arguments, vérifications de plausibilité, résumé de documents avancés et formulation de problèmes ❌ Faible en application de théorèmes, calcul symbolique, application de stratégies de résolution de problèmes, intuition géométrique et généralisation. Qu'est-ce qui vient ensuite Nous construisons des ensembles de problèmes sélectionnés avec des rubriques via le crowdsourcing communautaire, des graphiques de compétences pour les LLMs, et un correcteur automatique d'IA, des fondations pour l'entraînement des modèles vers une superintelligence mathématique. Nous invitons chaleureusement tout le monde à rejoindre la communauté GAUSS, à contribuer des problèmes via notre portail et à aider à façonner l'avenir de l'IA mathématique ! Ce travail a été dirigé par moi-même et Jiaxin Zhang (@JiaxinZhang626) chez @hyperbolic_labs / @Caltech, avec Qiuyu Ren & Tahsin Saffat chez @UCBerkeley, Lily Liu (@eqhylxx) chez @UCBerkeley → maintenant @OpenAI, Zitong Yang (@ZitongYang0) chez @Stanford, Prof. Banghua Zhu (@BanghuaZ) chez @nvidia / @UW, et Prof. Yi Ma (@YiMaTweets) chez @UCBerkeley / @HKUniversity. Liens et détails ci-dessous 👇 (1/n)