OpenAI jasno stwierdziło, że oceny powinny "uczynić niejasne cele konkretnymi i wyraźnymi", a oceny na granicy muszą być połączone z ocenami kontekstowymi, które odpowiadają rzeczywistym przepływom pracy, a nie placom zabaw dla zapytań: To, co opisuje @shyamalanadkat, szef Applied Evals w @OpenAI, to ta sama pętla, której chcemy dla agentów kodujących z cline-bench: wspólny zestaw złotych, trudnych, rzeczywistych zadań kodowania, w których modele miały trudności, a ludzie musieli interweniować, zapakowane jako powtarzalne środowiska, aby laboratoria i zespoły mogły określić, jak wygląda "świetny" wynik, mierzyć wydajność w rzeczywistych warunkach i poprawiać się, ucząc się na konkretnych przypadkach niepowodzeń: Jeśli chcesz pełnego kontekstu na temat tego, jak OpenAI myśli o ocenach, wprowadzenie jest tutaj: