Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Lanzamiento de SWE-BENCH PRO
Incluso los modelos de codificación de IA más fuertes tienen dificultades cuando la prueba se vuelve más difícil.
En SWE-BENCH Verified obtuvieron una puntuación de alrededor del 70%. En el SWE-BENCH PRO, más duro, eso cayó a menos del 25%.
SWE-BENCH Verified ha sido complicado y demasiado fácil, los modelos han visto las respuestas durante el entrenamiento y los problemas no reflejan el trabajo real del software. PRO soluciona esto agregando proyectos largos de nivel empresarial que están más cerca de la vida real.
- En el set público: GPT-5 resuelve el 23,3%, Claude Opus 4.1 resuelve el 22,7%.
- En el set comercial: Aún más difícil. Claude obtiene un 17,8%, GPT-5 un 14,9%.
Tres cosas que aprendimos
1. Los grandes modelos chocan contra un muro de pensamiento. GPT-5 y Claude pueden escribir código limpio y usar herramientas, pero a menudo se equivocan en la lógica.
2. Los modelos más pequeños fallan antes. Rompen con conceptos básicos como la sintaxis, el formato o el uso de herramientas.
3. Cada modelo tiene sus propios puntos débiles. El soneto se queda sin ventana de contexto. Géminis comete una mezcla de errores de herramienta, sintaxis y razonamiento.
Los modelos manejan Python y Go better. Todavía luchan mucho con JavaScript y TypeScript.
La IA actual está lejos de ser un ingeniero de software confiable. El éxito en tareas simples es engañoso. El verdadero desafío ahora no es escribir código, es pensar en el problema.


Populares
Ranking
Favoritas