Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SWE-BENCH PRO выпущен
Даже самые мощные модели ИИ для кодирования испытывают трудности, когда тест становится сложнее.
На SWE-BENCH Verified они набрали около 70%. На более сложном SWE-BENCH PRO этот показатель упал ниже 25%.
SWE-BENCH Verified был неаккуратным и слишком простым, модели видели ответы во время обучения, а задачи не отражают реальную работу с программным обеспечением. PRO исправляет это, добавляя проекты уровня предприятия, которые ближе к реальной жизни.
- На публичном наборе: GPT-5 решает 23.3%, Claude Opus 4.1 решает 22.7%.
- На коммерческом наборе: еще сложнее. Claude набирает 17.8%, GPT-5 набирает 14.9%.
Три вещи, которые мы узнали
1. Большие модели сталкиваются с мыслительной стеной. GPT-5 и Claude могут писать чистый код и использовать инструменты, но они часто ошибаются в логике.
2. Меньшие модели терпят неудачу раньше. Они ломаются на основах, таких как синтаксис, форматирование или использование инструментов.
3. У каждой модели есть свои слабые места. Sonnet исчерпывает окно контекста. Gemini делает смесь ошибок в инструментах, синтаксисе и рассуждениях.
Модели лучше справляются с Python и Go. Они по-прежнему испытывают серьезные трудности с JavaScript и TypeScript.
Текущий ИИ далек от того, чтобы быть надежным инженером-программистом. Успех в простых задачах вводит в заблуждение. Реальная проблема сейчас не в написании кода, а в осмыслении проблемы.


Топ
Рейтинг
Избранное