Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SWE-BENCH PRO rilasciato
Anche i modelli di codifica AI più forti faticano quando il test diventa più difficile.
Su SWE-BENCH Verified hanno ottenuto circa il 70%. Su SWE-BENCH PRO, che è più difficile, è sceso sotto il 25%.
SWE-BENCH Verified è stato disordinato e troppo facile, i modelli hanno visto le risposte durante l'addestramento e i problemi non riflettono il lavoro reale nel software. PRO risolve questo aggiungendo progetti a lungo termine a livello aziendale che sono più vicini alla vita reale.
- Su Public Set: GPT-5 risolve il 23,3%, Claude Opus 4.1 risolve il 22,7%.
- Su Commercial Set: Ancora più difficile. Claude ottiene il 17,8%, GPT-5 ottiene il 14,9%.
Tre cose che abbiamo imparato
1. I grandi modelli incontrano un muro di pensiero. GPT-5 e Claude possono scrivere codice pulito e usare strumenti, ma spesso sbagliano la logica.
2. I modelli più piccoli falliscono prima. Si bloccano su basi come sintassi, formattazione o uso degli strumenti.
3. Ogni modello ha i propri punti deboli. Sonnet esaurisce la finestra di contesto. Gemini commette una miscela di errori di strumento, sintassi e ragionamento.
I modelli gestiscono meglio Python e Go. Faticano ancora molto con JavaScript e TypeScript.
L'attuale AI è lontana dall'essere un ingegnere del software affidabile. Il successo in compiti semplici è fuorviante. La vera sfida ora non è scrivere codice, ma pensare al problema.


Principali
Ranking
Preferiti