Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

W internecie panuje wiele zamieszania na temat tego, czym tak naprawdę jest środowisko RL. To dosłownie tylko punkt odniesienia. - Środowisko - Stan początkowy - Weryfikator, który sprawdza, czy stan końcowy jest poprawny lub akceptowalny Środowisko to mały piaskownica, która daje LLM możliwość rzeczywistej interakcji — podejmowania działań, obserwowania wyników i wpływania na świat, w którym się znajduje. W przypadku TerminalBench to po prostu kontener Docker, który emuluje prawdziwe terminal dewelopera, z plikami, zależnościami i narzędziami systemowymi, które model może wykorzystać. Stan początkowy definiuje, co model widzi, gdy zadanie się zaczyna — dane wejściowe, kontekst i warunki początkowe. W benchmarku kodowania może to być stan repozytorium Git, gdy użytkownik po raz pierwszy zaczął pracować: pliki, zgłoszenie błędu, nieudane testy i początkowy komunikat użytkownika, który mówi modelowi, co należy zrobić. To „ustawienie problemu”, zamrożone w czasie, aby każdy model zaczynał z tej samej pozycji, a wynik można było porównać sprawiedliwie. Na koniec, weryfikator to to, co sprawia, że całość jest mierzalna. To element, który sprawdza, czy model rzeczywiście rozwiązał zadanie — zautomatyzowany sędzia, który przekształca chaotyczne wyniki w prosty wynik lub sygnał zaliczenia/niezaliczenia. Dlatego słyszysz, jak ludzie w laboratoriach mówią „szkoliliśmy na weryfikatorach”. Mówią o posiadaniu zautomatyzowanego sposobu oceny zachowania modelu. To staje się funkcją nagrody dla RL lub sygnałem zaliczenia/niezaliczenia dla benchmarków.

Najlepsze

Ranking

Ulubione