GAUSS: Общая оценка базовых структурированных навыков в математике Мы рады представить GAUSS, бенчмарк для ИИ в математике нового поколения, созданный для преодоления ограничений низкой разрешающей способности навыков в современных бенчмарках. Что он делает GAUSS профилирует LLM по 12 когнитивным измерениям навыков, охватывающим знания, рассуждения, обучение и креативность, предлагая точный и всесторонний взгляд на математические способности моделей. Почему это важно Выявляя сильные и слабые стороны на детальном уровне, GAUSS закладывает основу для продвижения ИИ в математике от поверхностного распознавания паттернов к истинному рассуждению и пониманию. Что мы узнали Применяя GAUSS к GPT-5 Thinking, мы узнали: ✅ Сильные стороны в воспоминании таксономии, оценке аргументов, проверке правдоподобия, резюмировании сложных статей и постановке задач ❌ Слабые стороны в применении теорем, символических вычислениях, применении стратегий решения задач, геометрической интуиции и обобщении. Что дальше Мы создаем кураторские наборы задач с рубриками через краудсорсинг сообщества, графики навыков для LLM и автооценщик ИИ, основы для обучения моделей к математической суперинтеллектуальности. Мы тепло приглашаем всех присоединиться к сообществу GAUSS, вносить задачи через наш портал и помогать формировать будущее ИИ в математике! Эту работу возглавили я и Цзяньсин Чжан (@JiaxinZhang626) в @hyperbolic_labs / @Caltech, вместе с Цюю Рен и Тахсином Саффатом в @UCBerkeley, Лили Лю (@eqhylxx) в @UCBerkeley → теперь @OpenAI, Цзитонг Янг (@ZitongYang0) в @Stanford, профессор Бангхуа Чжу (@BanghuaZ) в @nvidia / @UW и профессор И Ма (@YiMaTweets) в @UCBerkeley / @HKUniversity. Ссылки и детали ниже 👇 (1/n)