Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SWE-BENCH PRO släppt
Även de starkaste AI-kodningsmodellerna kämpar när testet blir svårare.
På SWE-BENCH Verified fick de cirka 70%. På den tuffare SWE-BENCH PRO sjönk det till under 25%.
SWE-BENCH Verified har varit rörigt och för lätt, modellerna har sett svaren under träningen och problemen speglar inte riktigt mjukvaruarbete. PRO löser detta genom att lägga till långa projekt på företagsnivå som ligger närmare det verkliga livet.
- På offentlig uppsättning: GPT-5 löser 23,3 %, Claude Opus 4.1 löser 22,7 %.
- På kommersiell inspelning: Ännu svårare. Claude får 17,8 % och GPT-5 14,9 %.
Tre saker vi lärde oss
1. Stora modeller träffar en tänkande vägg. GPT-5 och Claude kan skriva ren kod och använda verktyg, men de får ofta logiken fel.
2. Mindre modeller misslyckas tidigare. De bryter mot grunderna som syntax, formatering eller verktygsanvändning.
3. Varje modell har sina egna svaga punkter. Sonnet tar slut i sitt sammanhang. Tvillingarna gör en blandning av verktygs-, syntax- och resonemangsfel.
Modeller hanterar Python och Go bättre. De kämpar fortfarande hårt med JavaScript och TypeScript.
Nuvarande AI är långt ifrån en pålitlig mjukvaruingenjör. Framgång på enkla uppgifter är vilseledande. Den verkliga utmaningen nu är inte att skriva kod, det är att tänka igenom problemet.


Topp
Rankning
Favoriter