SWE-BENCH PRO rilasciato Anche i modelli di codifica AI più forti faticano quando il test diventa più difficile. Su SWE-BENCH Verified hanno ottenuto circa il 70%. Su SWE-BENCH PRO, che è più difficile, è sceso sotto il 25%. SWE-BENCH Verified è stato disordinato e troppo facile, i modelli hanno visto le risposte durante l'addestramento e i problemi non riflettono il lavoro reale nel software. PRO risolve questo aggiungendo progetti a lungo termine a livello aziendale che sono più vicini alla vita reale. - Su Public Set: GPT-5 risolve il 23,3%, Claude Opus 4.1 risolve il 22,7%. - Su Commercial Set: Ancora più difficile. Claude ottiene il 17,8%, GPT-5 ottiene il 14,9%. Tre cose che abbiamo imparato 1. I grandi modelli incontrano un muro di pensiero. GPT-5 e Claude possono scrivere codice pulito e usare strumenti, ma spesso sbagliano la logica. 2. I modelli più piccoli falliscono prima. Si bloccano su basi come sintassi, formattazione o uso degli strumenti. 3. Ogni modello ha i propri punti deboli. Sonnet esaurisce la finestra di contesto. Gemini commette una miscela di errori di strumento, sintassi e ragionamento. I modelli gestiscono meglio Python e Go. Faticano ancora molto con JavaScript e TypeScript. L'attuale AI è lontana dall'essere un ingegnere del software affidabile. Il successo in compiti semplici è fuorviante. La vera sfida ora non è scrivere codice, ma pensare al problema.