A OpenAI foi clara ao afirmar que as avaliações devem "tornar objetivos difusos específicos e explícitos", e que as avaliações fronteiriças precisam ser combinadas com avaliações contextuais que correspondam a fluxos de trabalho reais, em vez de playgrounds de prompts: O que @shyamalanadkat, chefe de avaliações aplicadas @OpenAI, descreve é o mesmo ciclo que queremos para agentes de codificação com cline-bench: um conjunto dourado compartilhado de tarefas difíceis e reais de codificação, onde modelos enfrentavam dificuldades e humanos precisavam intervir, embalados como ambientes reproduzíveis para que laboratórios e equipes pudessem especificar como é "ótimo", medir desempenho em condições reais, e melhorar aprendendo com casos concretos de falha: Se você quiser o contexto completo de como a OpenAI pensa sobre avaliações, o guia está aqui: