Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SWE-BENCH PRO został wydany
Nawet najsilniejsze modele AI do kodowania mają trudności, gdy test staje się trudniejszy.
Na SWE-BENCH Verified uzyskały około 70%. Na trudniejszym SWE-BENCH PRO spadło to poniżej 25%.
SWE-BENCH Verified był chaotyczny i zbyt łatwy, modele widziały odpowiedzi podczas treningu, a problemy nie odzwierciedlają rzeczywistej pracy programistycznej. PRO naprawia to, dodając projekty na poziomie przedsiębiorstwa, które są bliższe rzeczywistości.
- Na Public Set: GPT-5 rozwiązuje 23,3%, Claude Opus 4.1 rozwiązuje 22,7%.
- Na Commercial Set: Jeszcze trudniej. Claude zdobywa 17,8%, GPT-5 zdobywa 14,9%.
Trzy rzeczy, które się nauczyliśmy
1. Duże modele napotykają ścianę myślenia. GPT-5 i Claude potrafią pisać czysty kod i używać narzędzi, ale często mylą logikę.
2. Mniejsze modele zawodzą wcześniej. Łamią się na podstawach, takich jak składnia, formatowanie czy użycie narzędzi.
3. Każdy model ma swoje słabe punkty. Sonnet kończy się oknem kontekstowym. Gemini popełnia mieszankę błędów w narzędziach, składni i rozumowaniu.
Modele lepiej radzą sobie z Pythonem i Go. Wciąż mają poważne trudności z JavaScript i TypeScript.
Obecna AI jest daleka od bycia niezawodnym inżynierem oprogramowania. Sukces w prostych zadaniach jest mylący. Prawdziwe wyzwanie teraz nie polega na pisaniu kodu, lecz na przemyśleniu problemu.


Najlepsze
Ranking
Ulubione