OpenAI har varit tydlig med att utvärderingar ska "göra fuzzy mål specifika och explicita," och att frontier-utvärderingar behöver kombineras med kontextuella utvärderingar som matchar verkliga arbetsflöden istället för prompt-lekplatser: Vad @shyamalanadkat, chef för Applied Eals @OpenAI, beskriver att det finns samma loop som vi vill ha för kodagenter med cline-bench: en gemensam gyllene uppsättning svåra, verkliga kodningsuppgifter där modeller kämpade och människor var tvungna att ingripa, paketerade som reproducerbara miljöer så att labb och team kan specificera hur "fantastiskt" ser ut, mäta prestanda under verkliga förhållanden, och förbättra genom att lära sig av konkreta felfall: Om du vill ha hela kontexten om hur OpenAI ser på utvärderingar, finns introduktionen här: