SWE-BENCH PRO został wydany Nawet najsilniejsze modele AI do kodowania mają trudności, gdy test staje się trudniejszy. Na SWE-BENCH Verified uzyskały około 70%. Na trudniejszym SWE-BENCH PRO spadło to poniżej 25%. SWE-BENCH Verified był chaotyczny i zbyt łatwy, modele widziały odpowiedzi podczas treningu, a problemy nie odzwierciedlają rzeczywistej pracy programistycznej. PRO naprawia to, dodając projekty na poziomie przedsiębiorstwa, które są bliższe rzeczywistości. - Na Public Set: GPT-5 rozwiązuje 23,3%, Claude Opus 4.1 rozwiązuje 22,7%. - Na Commercial Set: Jeszcze trudniej. Claude zdobywa 17,8%, GPT-5 zdobywa 14,9%. Trzy rzeczy, które się nauczyliśmy 1. Duże modele napotykają ścianę myślenia. GPT-5 i Claude potrafią pisać czysty kod i używać narzędzi, ale często mylą logikę. 2. Mniejsze modele zawodzą wcześniej. Łamią się na podstawach, takich jak składnia, formatowanie czy użycie narzędzi. 3. Każdy model ma swoje słabe punkty. Sonnet kończy się oknem kontekstowym. Gemini popełnia mieszankę błędów w narzędziach, składni i rozumowaniu. Modele lepiej radzą sobie z Pythonem i Go. Wciąż mają poważne trudności z JavaScript i TypeScript. Obecna AI jest daleka od bycia niezawodnym inżynierem oprogramowania. Sukces w prostych zadaniach jest mylący. Prawdziwe wyzwanie teraz nie polega na pisaniu kodu, lecz na przemyśleniu problemu.