Verkossa on paljon hämmennystä siitä, mikä RL-ympäristö todella on. Se on kirjaimellisesti vain vertailukohta. - Ympäristö - Lähtötila - Todentaja, joka tarkistaa, onko lopputila oikea tai hyväksyttävä Ympäristö on pieni hiekkalaatikko, joka antaa LLM:lle mahdollisuuden todella olla vuorovaikutuksessa – ryhtyä toimiin, nähdä tuloksia ja vaikuttaa maailmaan, jossa se on. TerminalBenchin tapauksessa se on vain Docker-säilö, joka emuloi todellista kehittäjäpäätettä, jossa on tiedostot, riippuvuudet ja järjestelmätyökalut, joita malli voi käyttää. Aloitustila määrittää, mitä malli näkee tehtävän alkaessa – syötteet, konteksti ja alkuehdot. Koodauksen vertailuarvossa tämä voi olla Git-arkiston tila, kun käyttäjä aloitti työskentelyn: tiedostot, virheraportti, epäonnistuneet testit ja käyttäjän aloituskehote, joka kertoo mallille, mitä on tehtävä. Se on "ongelma-asetelma", joka on jähmettynyt aikaan, joten jokainen malli alkaa samasta kohdasta ja lopputulosta voidaan verrata reilusti. Lopuksi todentaja on se, mikä tekee kokonaisuudesta mitattavan. Se on kappale, joka tarkistaa, onko malli todella ratkaissut tehtävän – automatisoitu tuomari, joka muuttaa sotkuiset tulokset yksinkertaiseksi pistemääräksi tai läpäisy/hylkäyssignaaliksi. Siksi kuulet ihmisten laboratorioissa sanovan: "Koulutimme todentajia". He puhuvat automaattisesta tavasta pisteyttää mallin käyttäytymistä. Tästä tulee sitten RL:n palkitsemisfunktio tai vertailuarvojen hyväksytty/hylätty signaali.