OpenAI heeft duidelijk gemaakt dat evaluaties "vage doelen specifiek en expliciet moeten maken," en dat grens-evaluaties moeten worden gekoppeld aan contextuele evaluaties die overeenkomen met echte workflows in plaats van prompt speelvelden: Wat @shyamalanadkat, Hoofd Toegepaste Evaluaties @OpenAI, beschrijft is dezelfde cyclus die we willen voor coderingsagenten met cline-bench: een gedeelde gouden set van moeilijke, echte coderingsopdrachten waar modellen moeite mee hadden en mensen moesten ingrijpen, verpakt als reproduceerbare omgevingen zodat laboratoria en teams kunnen specificeren wat "geweldig" eruitziet, prestaties kunnen meten onder echte omstandigheden, en kunnen verbeteren door te leren van concrete falen: Als je de volledige context wilt over hoe OpenAI denkt over evaluaties, is de primer hier: