Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SWE-BENCH PRO vydáno
I ty nejsilnější modely kódování umělé inteligence mají problémy, když je test těžší.
Na SWE-BENCH Ověřeno dosáhli přibližně 70 %. Na tvrdším SWE-BENCH PRO to kleslo pod 25 %.
SWE-BENCH Verified byl chaotický a příliš snadný, modely viděly odpovědi během školení a problémy neodrážejí skutečnou práci se softwarem. PRO to opravuje přidáním dlouhých projektů na podnikové úrovni, které jsou bližší skutečnému životu.
- Ve veřejné sadě: GPT-5 řeší 23,3 %, Claude Opus 4,1 řeší 22,7 %.
- Na komerčním natáčení: Ještě těžší. Claude má skóre 17,8 %, GPT-5 skóre 14,9 %.
Tři věci, které jsme se naučili
1. Velké modely narazily na zeď myšlení. GPT-5 a Claude umí psát čistý kód a používat nástroje, ale často mají špatnou logiku.
2. Menší modely selhávají dříve. Rozbíjejí základy, jako je syntaxe, formátování nebo použití nástrojů.
3. Každý model má svá slabá místa. Sonet je spuštěn mimo kontextové okno. Blíženci dělají kombinaci chyb v nástrojích, syntaxi a uvažování.
Modely zvládají Python a Go lépe. Stále se jim nedaří v JavaScriptu a TypeScriptu.
Současná umělá inteligence má daleko ke spolehlivému softwarovému inženýrovi. Úspěch v jednoduchých úkolech je zavádějící. Skutečnou výzvou nyní není psaní kódu, ale promýšlení problému.


Top
Hodnocení
Oblíbené