Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
W internecie panuje wiele zamieszania na temat tego, czym tak naprawdę jest środowisko RL. 
To dosłownie tylko punkt odniesienia. 
- Środowisko
- Stan początkowy
- Weryfikator, który sprawdza, czy stan końcowy jest poprawny lub akceptowalny
Środowisko to mały piaskownica, która daje LLM możliwość rzeczywistej interakcji — podejmowania działań, obserwowania wyników i wpływania na świat, w którym się znajduje. W przypadku TerminalBench to po prostu kontener Docker, który emuluje prawdziwe terminal dewelopera, z plikami, zależnościami i narzędziami systemowymi, które model może wykorzystać.
Stan początkowy definiuje, co model widzi, gdy zadanie się zaczyna — dane wejściowe, kontekst i warunki początkowe. W benchmarku kodowania może to być stan repozytorium Git, gdy użytkownik po raz pierwszy zaczął pracować: pliki, zgłoszenie błędu, nieudane testy i początkowy komunikat użytkownika, który mówi modelowi, co należy zrobić. To „ustawienie problemu”, zamrożone w czasie, aby każdy model zaczynał z tej samej pozycji, a wynik można było porównać sprawiedliwie.
Na koniec, weryfikator to to, co sprawia, że całość jest mierzalna. To element, który sprawdza, czy model rzeczywiście rozwiązał zadanie — zautomatyzowany sędzia, który przekształca chaotyczne wyniki w prosty wynik lub sygnał zaliczenia/niezaliczenia. 
Dlatego słyszysz, jak ludzie w laboratoriach mówią „szkoliliśmy na weryfikatorach”. Mówią o posiadaniu zautomatyzowanego sposobu oceny zachowania modelu. To staje się funkcją nagrody dla RL lub sygnałem zaliczenia/niezaliczenia dla benchmarków.

Najlepsze
Ranking
Ulubione

