OpenAI ha dejado claro que las evaluaciones deben "hacer que los objetivos difusos sean específicos y explícitos", y que las evaluaciones de frontera deben combinarse con evaluaciones contextuales que se ajusten a flujos de trabajo reales en lugar de a los playgrounds de prompts: Lo que @shyamalanadkat, jefe de evaluaciones aplicadas @OpenAI, describe que es el mismo bucle que queremos para agentes de codificación con cline-bench: un conjunto dorado compartido de tareas de codificación duras y reales donde los modelos luchaban y los humanos tenían que intervenir, empaquetados como entornos reproducibles para que laboratorios y equipos pudieran especificar cómo es "excelente", medir el rendimiento en condiciones reales, y mejorar aprendiendo de casos concretos de fallo: Si quieres el contexto completo de cómo piensa OpenAI sobre las evaluaciones, aquí tienes el resumen: