OpenAI jasně uvedla, že hodnocení by měla "dělat nejasné cíle konkrétními a explicitními" a že frontier hodnocení musí být spojena s kontextovými hodnoceními, která odpovídají skutečným pracovním postupům, nikoli s promptovými hřišti: Co @shyamalanadkat, vedoucí aplikovaných evaluací @OpenAI, popisuje, že existuje stejná smyčka, kterou chceme pro kódující agenty s cline-bench: sdílená zlatá sada těžkých, reálných programátorských úkolů, kde modely zápasily a lidé museli zasahovat, zabalená jako reprodukovatelná prostředí, aby laboratoře a týmy mohly specifikovat, jak vypadá "skvělé", měřit výkon za reálných podmínek, a zlepšovat se učením z konkrétních případů selhání: Pokud chcete úplný kontext o tom, jak OpenAI přemýšlí o hodnoceních, úvod najdete zde: