GAUSS: Evaluación general de las habilidades estructuradas subyacentes en matemáticas Estamos entusiasmados de lanzar GAUSS, un punto de referencia de IA matemática de próxima generación creado para superar las limitaciones de la resolución de baja habilidad en los puntos de referencia actuales. Qué hace GAUSS perfila los LLM en 12 dimensiones de habilidades cognitivas, que abarcan el conocimiento, el razonamiento, el aprendizaje y la creatividad, ofreciendo una visión precisa y completa de la capacidad matemática de los modelos. Por qué es importante Al exponer las fortalezas y debilidades a un nivel detallado, GAUSS sienta las bases para avanzar en la IA matemática desde el reconocimiento de patrones a nivel superficial hacia el razonamiento y la comprensión genuinos. Lo que se encontró Aplicando GAUSS al pensamiento GPT-5, aprendimos: ✅ Fuerte en el recuerdo de taxonomía, evaluación de argumentos, verificaciones de plausibilidad, resumen de artículos avanzados y planteamiento de problemas ❌ Débil en la aplicación de teoremas, computación simbólica, aplicación de estrategias de resolución de problemas, intuición geométrica y generalización. ¿Qué sigue? Estamos construyendo conjuntos de problemas seleccionados con rúbricas a través de crowdsourcing comunitario, gráficos de habilidades para LLM y una calificadora automática de IA, bases para el entrenamiento de modelos hacia la superinteligencia matemática. ¡Invitamos calurosamente a todos a unirse a la comunidad GAUSS, contribuir con problemas a través de nuestro portal y ayudar a dar forma al futuro de Math AI! Este trabajo fue dirigido por mí y Jiaxin Zhang (@JiaxinZhang626) en @hyperbolic_labs / @Caltech, junto con Qiuyu Ren y Tahsin Saffat en @UCBerkeley, Lily Liu (@eqhylxx) en @UCBerkeley → ahora @OpenAI, Zitong Yang (@ZitongYang0) en @Stanford, Prof. Banghua Zhu (@BanghuaZ) en @nvidia / @UW, y Prof. Yi Ma (@YiMaTweets) en @UCBerkeley / @HKUniversity. Enlaces y detalles a continuación 👇 (1/n)