Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Na internetu je spousta zmatků ohledně toho, co je to RL prostředí.
Je to doslova jen měřítko.
- Prostředí
- Výchozí stav
- Ověřovatel, který kontroluje, zda je koncový stav správný nebo přijatelný
Prostředí je malé pískoviště, které dává LLM příležitost skutečně interagovat – podnikat akce, vidět výsledky a ovlivňovat svět, ve kterém se nachází. V případě TerminalBench je to pouze kontejner Docker, který emuluje skutečný vývojářský terminál doplněný o soubory, závislosti a systémové nástroje, které model může používat.
Počáteční stav definuje, co model uvidí na začátku úlohy – vstupy, kontext a počáteční podmínky. V srovnávacím testu kódování to může být stav úložiště Git v době, kdy uživatel poprvé začal pracovat: soubory, hlášení o chybě, neúspěšné testy a spouštěcí výzva uživatele, která modelu sděluje, co je třeba udělat. Jedná se o "nastavení problému", zamrzlé v čase, takže každý model začíná ze stejné pozice a výsledek lze spravedlivě porovnat.
A konečně, ověřovatel je to, co dělá celou věc měřitelnou. Je to část, která kontroluje, zda model skutečně vyřešil úkol – automatizovaný soudce, který mění chaotické výstupy na jednoduché skóre nebo signál vyhověl/nevyhověl.
Proto slyšíte lidi v laboratořích říkat "vyškolili jsme verifikátory". Mluví o tom, že mají automatizovaný způsob hodnocení chování modelu. To se pak stane funkcí odměny pro RL nebo signálem vyhověl/nevyhověl pro benchmarky.

Top
Hodnocení
Oblíbené

