SWE-BENCH PRO a été publié Même les modèles de codage AI les plus puissants ont du mal lorsque le test devient plus difficile. Sur SWE-BENCH Verified, ils ont obtenu environ 70 %. Sur le plus difficile SWE-BENCH PRO, cela est tombé à moins de 25 %. SWE-BENCH Verified a été désordonné et trop facile, les modèles ont vu les réponses pendant l'entraînement, et les problèmes ne reflètent pas le travail réel en logiciel. PRO corrige cela en ajoutant des projets longs de niveau entreprise qui sont plus proches de la vie réelle. - Sur le Public Set : GPT-5 résout 23,3 %, Claude Opus 4,1 résout 22,7 %. - Sur le Commercial Set : Encore plus difficile. Claude obtient 17,8 %, GPT-5 obtient 14,9 %. Trois choses que nous avons apprises 1. Les grands modèles rencontrent un mur de réflexion. GPT-5 et Claude peuvent écrire du code propre et utiliser des outils, mais ils se trompent souvent dans la logique. 2. Les modèles plus petits échouent plus tôt. Ils se cassent sur des bases comme la syntaxe, le formatage ou l'utilisation d'outils. 3. Chaque modèle a ses propres points faibles. Sonnet manque de fenêtre de contexte. Gemini fait un mélange d'erreurs d'outil, de syntaxe et de raisonnement. Les modèles gèrent mieux Python et Go. Ils ont encore de grandes difficultés avec JavaScript et TypeScript. L'IA actuelle est loin d'être un ingénieur logiciel fiable. Le succès sur des tâches simples est trompeur. Le véritable défi maintenant n'est pas d'écrire du code, mais de réfléchir au problème.