DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

SWE-BENCH PRO uitgebracht Zelfs de sterkste AI-coderingmodellen hebben moeite wanneer de test moeilijker wordt. Op SWE-BENCH Verified scoorden ze ongeveer 70%. Bij de moeilijkere SWE-BENCH PRO daalde dat tot onder de 25%. SWE-BENCH Verified was rommelig en te gemakkelijk, modellen hebben de antwoorden tijdens de training gezien, en de problemen weerspiegelen geen echt softwarewerk. PRO lost dit op door enterprise-niveau, lange projecten toe te voegen die dichter bij het echte leven staan. - Op de Publieke Set: GPT-5 lost 23,3% op, Claude Opus 4.1 lost 22,7% op. - Op de Commerciële Set: Zelfs moeilijker. Claude scoort 17,8%, GPT-5 scoort 14,9%. Drie dingen die we hebben geleerd 1.Grote modellen stuiten op een denkmuur. GPT-5 en Claude kunnen schone code schrijven en tools gebruiken, maar ze krijgen vaak de logica verkeerd. 2.Kleinere modellen falen eerder. Ze breken op basisdingen zoals syntaxis, opmaak of het gebruik van tools. 3.Ieder model heeft zijn eigen zwakke plekken. Sonnet raakt de contextvenster kwijt. Gemini maakt een mix van tool-, syntaxis- en redeneerfouten. Modellen gaan beter om met Python en Go. Ze hebben nog steeds grote moeite met JavaScript en TypeScript. Huidige AI is verre van een betrouwbare software-engineer. Succes met eenvoudige taken is misleidend. De echte uitdaging nu is niet het schrijven van code, maar het doordenken van het probleem.

Boven

Positie

Favorieten