Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SWE-BENCH PRO uitgebracht
Zelfs de sterkste AI-coderingmodellen hebben moeite wanneer de test moeilijker wordt.
Op SWE-BENCH Verified scoorden ze ongeveer 70%. Bij de moeilijkere SWE-BENCH PRO daalde dat tot onder de 25%.
SWE-BENCH Verified was rommelig en te gemakkelijk, modellen hebben de antwoorden tijdens de training gezien, en de problemen weerspiegelen geen echt softwarewerk. PRO lost dit op door enterprise-niveau, lange projecten toe te voegen die dichter bij het echte leven staan.
- Op de Publieke Set: GPT-5 lost 23,3% op, Claude Opus 4.1 lost 22,7% op.
- Op de Commerciële Set: Zelfs moeilijker. Claude scoort 17,8%, GPT-5 scoort 14,9%.
Drie dingen die we hebben geleerd
1.Grote modellen stuiten op een denkmuur. GPT-5 en Claude kunnen schone code schrijven en tools gebruiken, maar ze krijgen vaak de logica verkeerd.
2.Kleinere modellen falen eerder. Ze breken op basisdingen zoals syntaxis, opmaak of het gebruik van tools.
3.Ieder model heeft zijn eigen zwakke plekken. Sonnet raakt de contextvenster kwijt. Gemini maakt een mix van tool-, syntaxis- en redeneerfouten.
Modellen gaan beter om met Python en Go. Ze hebben nog steeds grote moeite met JavaScript en TypeScript.
Huidige AI is verre van een betrouwbare software-engineer. Succes met eenvoudige taken is misleidend. De echte uitdaging nu is niet het schrijven van code, maar het doordenken van het probleem.


Boven
Positie
Favorieten