Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI jasno stwierdziło, że oceny powinny "uczynić niejasne cele konkretnymi i wyraźnymi", a oceny na granicy muszą być połączone z ocenami kontekstowymi, które odpowiadają rzeczywistym przepływom pracy, a nie placom zabaw dla zapytań:
To, co opisuje @shyamalanadkat, szef Applied Evals w @OpenAI, to ta sama pętla, której chcemy dla agentów kodujących z cline-bench: wspólny zestaw złotych, trudnych, rzeczywistych zadań kodowania, w których modele miały trudności, a ludzie musieli interweniować, zapakowane jako powtarzalne środowiska, aby laboratoria i zespoły mogły określić, jak wygląda "świetny" wynik, mierzyć wydajność w rzeczywistych warunkach i poprawiać się, ucząc się na konkretnych przypadkach niepowodzeń:
Jeśli chcesz pełnego kontekstu na temat tego, jak OpenAI myśli o ocenach, wprowadzenie jest tutaj:


Najlepsze
Ranking
Ulubione

