Le problème avec SWE-bench : pourquoi notre course aux LLM est bâtie sur du sable 1) Dans le monde des LLM, les benchmarks sont le tableau de score. Les entreprises présentent des chiffres aux investisseurs, aux utilisateurs et au public comme s'ils représentaient "l'intelligence". Mais le benchmark le plus médiatisé, vérifié par SWE-bench, s'avère profondément défectueux. Décomposons pourquoi 👇
474