Випущено SWE-BENCH PRO Навіть найсильніші моделі кодування штучного інтелекту зазнають труднощів, коли тест стає складнішим. На SWE-BENCH Verified вони набрали близько 70%. На більш жорсткому SWE-BENCH PRO цей показник впав нижче 25%. SWE-BENCH Verified був брудним і занадто простим, моделі бачили відповіді під час тренувань, а проблеми не відображають реальну роботу програмного забезпечення. PRO виправляє це, додаючи тривалі проєкти корпоративного рівня, які ближчі до реального життя. - На загальнодоступному наборі: GPT-5 вирішує 23,3%, Claude Opus 4.1 вирішує 22,7%. - На комерційному знімальному майданчику: Ще складніше. Клод набирає 17,8%, GPT-5 – 14,9%. Три речі, про які ми дізналися 1. Великі моделі вдаряються об мислену стіну. GPT-5 і Claude можуть писати чистий код і використовувати інструменти, але вони часто помиляються в логіці. 2. Менші моделі виходять з ладу раніше. Вони порушують базові аспекти, такі як синтаксис, форматування або використання інструментів. 3. Кожна модель має свої слабкі місця. Сонет вибігає з контекстного вікна. Близнюки поєднують помилки в інструментах, синтаксисі та міркуваннях. Моделі краще справляються з Python і Go. Вони все ще мають серйозні проблеми на JavaScript та TypeScript. Нинішній штучний інтелект далеко не надійний інженер-програміст. Успіх у виконанні простих завдань вводить в оману. Справжній виклик зараз полягає не в написанні коду, а в продумуванні проблеми.