Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SWE-BENCH PRO lansert
Selv de sterkeste AI-kodingsmodellene sliter når testen blir vanskeligere.
På SWE-BENCH Verified scoret de omtrent 70 %. På den tøffere SWE-BENCH PRO falt det til under 25 %.
SWE-BENCH Verified har vært rotete og for enkelt, modellene har sett svarene under opplæringen, og problemene gjenspeiler ikke reelt programvarearbeid. PRO fikser dette ved å legge til lange prosjekter på bedriftsnivå som er nærmere det virkelige liv.
- På offentlig sett: GPT-5 løser 23,3 %, Claude Opus 4,1 løser 22,7 %.
- På kommersielt sett: Enda vanskeligere. Claude scorer 17.8 %, GPT-5 scorer 14.9 %.
Tre ting vi lærte
1. Store modeller treffer en tenkevegg. GPT-5 og Claude kan skrive ren kode og bruke verktøy, men de tar ofte feil av logikken.
2. Mindre modeller mislykkes tidligere. De bryter med grunnleggende ting som syntaks, formatering eller verktøybruk.
3. Hver modell har sine egne svake punkter. Sonnet går tom for kontekstvindu. Gemini gjør en blanding av verktøy-, syntaks- og resonnementfeil.
Modeller håndterer Python og Go bedre. De sliter fortsatt hardt med JavaScript og TypeScript.
Nåværende AI er langt fra å være en pålitelig programvareingeniør. Suksess med enkle oppgaver er misvisende. Den virkelige utfordringen nå er ikke å skrive kode, det er å tenke gjennom problemet.


Topp
Rangering
Favoritter