SWE-BENCH PRO выпущен Даже самые мощные модели ИИ для кодирования испытывают трудности, когда тест становится сложнее. На SWE-BENCH Verified они набрали около 70%. На более сложном SWE-BENCH PRO этот показатель упал ниже 25%. SWE-BENCH Verified был неаккуратным и слишком простым, модели видели ответы во время обучения, а задачи не отражают реальную работу с программным обеспечением. PRO исправляет это, добавляя проекты уровня предприятия, которые ближе к реальной жизни. - На публичном наборе: GPT-5 решает 23.3%, Claude Opus 4.1 решает 22.7%. - На коммерческом наборе: еще сложнее. Claude набирает 17.8%, GPT-5 набирает 14.9%. Три вещи, которые мы узнали 1. Большие модели сталкиваются с мыслительной стеной. GPT-5 и Claude могут писать чистый код и использовать инструменты, но они часто ошибаются в логике. 2. Меньшие модели терпят неудачу раньше. Они ломаются на основах, таких как синтаксис, форматирование или использование инструментов. 3. У каждой модели есть свои слабые места. Sonnet исчерпывает окно контекста. Gemini делает смесь ошибок в инструментах, синтаксисе и рассуждениях. Модели лучше справляются с Python и Go. Они по-прежнему испытывают серьезные трудности с JavaScript и TypeScript. Текущий ИИ далек от того, чтобы быть надежным инженером-программистом. Успех в простых задачах вводит в заблуждение. Реальная проблема сейчас не в написании кода, а в осмыслении проблемы.