DApp Store | Centrum Web3 pro události a hry

Populární témata

Na internetu je spousta zmatků ohledně toho, co je to RL prostředí. Je to doslova jen měřítko. - Prostředí - Výchozí stav - Ověřovatel, který kontroluje, zda je koncový stav správný nebo přijatelný Prostředí je malé pískoviště, které dává LLM příležitost skutečně interagovat – podnikat akce, vidět výsledky a ovlivňovat svět, ve kterém se nachází. V případě TerminalBench je to pouze kontejner Docker, který emuluje skutečný vývojářský terminál doplněný o soubory, závislosti a systémové nástroje, které model může používat. Počáteční stav definuje, co model uvidí na začátku úlohy – vstupy, kontext a počáteční podmínky. V srovnávacím testu kódování to může být stav úložiště Git v době, kdy uživatel poprvé začal pracovat: soubory, hlášení o chybě, neúspěšné testy a spouštěcí výzva uživatele, která modelu sděluje, co je třeba udělat. Jedná se o "nastavení problému", zamrzlé v čase, takže každý model začíná ze stejné pozice a výsledek lze spravedlivě porovnat. A konečně, ověřovatel je to, co dělá celou věc měřitelnou. Je to část, která kontroluje, zda model skutečně vyřešil úkol – automatizovaný soudce, který mění chaotické výstupy na jednoduché skóre nebo signál vyhověl/nevyhověl. Proto slyšíte lidi v laboratořích říkat "vyškolili jsme verifikátory". Mluví o tom, že mají automatizovaný způsob hodnocení chování modelu. To se pak stane funkcí odměny pro RL nebo signálem vyhověl/nevyhověl pro benchmarky.

Top

Hodnocení

Oblíbené