El problema con SWE-bench: por qué nuestra carrera de LLM está construida sobre arena 1) En el mundo de los LLM, los benchmarks son el marcador. Las empresas presentan números a inversores, usuarios y al público como si representaran "inteligencia". Pero el benchmark más promocionado, verificado por SWE-bench, resulta ser profundamente defectuoso. Desglosemos por qué 👇
468