OpenAI ha sido claro en que las evaluaciones deben "hacer que los objetivos difusos sean específicos y explícitos", y que las evaluaciones de frontera deben ir acompañadas de evaluaciones contextuales que coincidan con flujos de trabajo reales en lugar de parques de pruebas de prompts: Lo que @shyamalanadkat, Jefe de Evaluaciones Aplicadas en @OpenAI, describe es el mismo ciclo que queremos para los agentes de codificación con cline-bench: un conjunto dorado compartido de tareas de codificación difíciles y del mundo real donde los modelos tuvieron dificultades y los humanos tuvieron que intervenir, empaquetado como entornos reproducibles para que los laboratorios y equipos puedan especificar cómo se ve "genial", medir el rendimiento en condiciones reales y mejorar aprendiendo de casos de fracaso concretos: Si quieres el contexto completo sobre cómo OpenAI piensa acerca de las evaluaciones, el resumen está aquí: