OpenAI a fost clar că evaluările ar trebui să "facă obiectivele neclare specifice și explicite" și că evaluările de frontieră trebuie asociate cu evaluări contextuale care să corespundă fluxurilor reale, nu cu locurile de joacă cu prompturi: Ceea ce descrie @shyamalanadkat, șeful evaluărilor aplicate @OpenAI, este același ciclu pe care îl dorim pentru agenții de codare cu cline-bench: un set de aur comun de sarcini dificile de codare din lumea reală, unde modelele au avut dificultăți și oamenii au trebuit să intervină, ambalate ca medii reproductibile, astfel încât laboratoarele și echipele să poată specifica cum arată "grozav", să măsoare performanța în condiții reale, și îmbunătățiri învățând din cazurile concrete de defectare: Dacă vrei să afli tot contextul despre cum gândește OpenAI evaluările, ghidul este aici: