Escucho algunos susurros ahora de los pájaros de que las evaluaciones internas están teniendo gpt5 un poco por encima de grok 4 Heavy. Sin embargo, las evaluaciones solo le dicen un lado a un modelo, curioso por ver si obtenemos mejoras importantes en el agente o de otro tipo.
277,14K