Sí, esto parece haber sido correcto considerando un solo agente frente a grok 4 con múltiples agentes pesados.
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc11 jul 2025
Escucho algunos susurros ahora de los pájaros de que las evaluaciones internas están teniendo gpt5 un poco más que grok 4 Heavy. Sin embargo, las evaluaciones solo cuentan un lado de un modelo, es curioso ver si obtenemos alguna mejora importante en los agentes o en otro tipo.
24.84K