OpenAI on tehnyt selväksi, että arvioinneissa tulisi "tehdä epämääräisistä tavoitteista tarkkoja ja selkeitä", ja että rajaarvioinnit tulisi yhdistää kontekstuaalisiin arviointeihin, jotka vastaavat todellisia työnkulkuja eikä suoraan pelattavia leikkikenttiä: @shyamalanadkat, Applied Evals @OpenAI:n johtaja, kuvaa, että sama silmukka, jota haluamme cline-bench-koodausagenteille: yhteinen kultainen joukko vaikeita, todellisia koodaustehtäviä, joissa mallit kamppailevat ja ihmisten täytyi puuttua asiaan, paketoituna toistettaviksi ympäristöiksi, jotta laboratoriot ja tiimit voivat määritellä, miltä "loistavaa" näyttää, mitata suorituskykyä todellisissa olosuhteissa, ja parantaa oppimista konkreettisista vikatapauksista: Jos haluat koko kontekstin siitä, miten OpenAI ajattelee arviointeja, johdanto löytyy täältä: