Веселый математический бенчмарк, GAUSS, от @hyperbolic_labs и др. Они извлекают из различных источников 41 математическую задачу, которые являются сложными, но позволяют оценить разные аспекты решения задач. И оценивают модели на их основе, основываясь на истинных данных и рубрике. И они сложные. Когда авторы проанализировали ответы, они увидели как сильные стороны, так и недостатки GPT-5: - Сильные знания и способность к анализу - Слабые навыки в построении сложного математического рассуждения сверху вниз. Интригующе, и приятно иметь этот обзор. С нетерпением жду, когда он столкнется с моделью IMO! :)