A OpenAI deixou claro que as avaliações devem "tornar objetivos vagos específicos e explícitos", e que as avaliações de fronteira precisam ser emparelhadas com avaliações contextuais que correspondam a fluxos de trabalho reais em vez de playgrounds de prompts: O que @shyamalanadkat, Chefe de Avaliações Aplicadas @OpenAI, descreve é o mesmo ciclo que queremos para agentes de codificação com cline-bench: um conjunto compartilhado de tarefas de codificação difíceis e do mundo real onde os modelos tiveram dificuldades e os humanos tiveram que intervir, embalados como ambientes reproduzíveis para que laboratórios e equipes possam especificar como é "ótimo", medir o desempenho em condições reais e melhorar aprendendo com casos concretos de falha: Se você quiser o contexto completo sobre como a OpenAI pensa sobre avaliações, o resumo está aqui: