Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Es gibt viel Verwirrung online darüber, was eine RL-Umgebung wirklich ist.
Es ist ganz einfach ein Benchmark.
- Eine Umgebung
- Ein Ausgangszustand
- Ein Prüfer, der überprüft, ob ein Endzustand korrekt oder akzeptabel ist
Die Umgebung ist eine kleine Sandbox, die dem LLM die Möglichkeit gibt, tatsächlich zu interagieren – Aktionen auszuführen, Ergebnisse zu sehen und die Welt, in der es sich befindet, zu beeinflussen. Im Fall von TerminalBench ist es einfach ein Docker-Container, der ein echtes Entwicklerterminal emuliert, komplett mit Dateien, Abhängigkeiten und Systemwerkzeugen, die das Modell nutzen kann.
Der Ausgangszustand definiert, was das Modell sieht, wenn die Aufgabe beginnt – die Eingaben, den Kontext und die Anfangsbedingungen. In einem Coding-Benchmark könnte dies der Zustand eines Git-Repositorys sein, als der Benutzer zum ersten Mal mit der Arbeit begann: die Dateien, der Fehlerbericht, die fehlgeschlagenen Tests und die Eingabeaufforderung des Benutzers, die dem Modell sagt, was zu tun ist. Es ist das „Problem-Setup“, das in der Zeit eingefroren ist, sodass jedes Modell von der gleichen Position aus beginnt und das Ergebnis fair verglichen werden kann.
Schließlich ist der Prüfer das, was das Ganze messbar macht. Es ist das Element, das überprüft, ob das Modell die Aufgabe tatsächlich gelöst hat – der automatisierte Richter, der unordentliche Ausgaben in eine einfache Punktzahl oder ein Bestehen/Nichtbestehen-Signal umwandelt.
Deshalb hört man Leute in Laboren sagen: „Wir haben mit Prüfern trainiert“. Sie sprechen davon, eine automatisierte Möglichkeit zu haben, das Verhalten des Modells zu bewerten. Dies wird dann zur Belohnungsfunktion für RL oder zum Bestehen/Nichtbestehen-Signal für Benchmarks.

Top
Ranking
Favoriten

