Atropos v0.3 on nyt julkaistu! RL Environments -kehykseemme on tehty paljon päivityksiä v0.2:n jälkeen - joitain kohokohtia: - Atroposta voidaan nyt käyttää vertailu- ja arviointikehyksenä @rogershijin ensimmäisellä ulkoisella vertailuarvollamme, Reward-Bench 2:lla! - Lisätty Reasoning Gym, ulkoisen ympäristön kuntosalivarasto, joka on siirretty atropokseen ja jossa on yli 100 päättelytehtävää @neurosp1ke ja ystävien toimesta - @max_paperclips integroinut @intern_lm:n päättelyn bootcampin, joka lisää 1000+ uutta päättelytehtävää RL:lle - @dmayhem93 Atroposin pääinsinööri lisäsi kymmeniä virheenkorjauksia ja muita luotettavuuden ja yhteensopivuuden parannuksia, paremman tuen moniympäristölle ja CI/CD:n - Monet Atropos-hackathon-ympäristöistä on yhdistetty tiedostoon /environments/community - niiden kaikkien luetteleminen veisi suurimman osan näyttötilasta, mutta joitain kohokohtia: VR-CLI by @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, proteiinisuunnittelu @hallerite, mallin reititysympäristö @gabinfay, useita lean-todistamisesta, catbot-areena, pokemon-showdown, pokeri, avuliaita lääkäreitä, sanskritinkielistä runoutta @khoomeik ja paljon muuta! - Muita merkittäviä virallisesti tuettuja uusia ympäristöjä ovat: Vastausmuoto seuraavan ympäristön mukaisesti Pydantic JSON-ympäristöön siirretty @MatternJustus työstä Ohje: Siirretty @natolambert ja @allen_ai:n työstä Kirjainten laskeminen - 47 Upouudet avustajat! Katso koko muutosloki täältä:
Teknium (e/λ)
Teknium (e/λ)18.7.2025
Yhdistin juuri PR:n ympäristölle, joka parantaa LLM:ää tuomarina sekä arvioi malleja heidän kyvystään tehdä arvioita! Tiesitkö, että kaikki todennettavissa olevat RL-ympäristöt ovat lähes vertailuarvoja vastaavia (ja päinvastoin!)? Joten lisäsimme arviointikomennon Atroposin tukikohtaan ja nyt voit suorittaa vertailuarvoja Atropos-ympäristöissä. Turhauduimme työskentelemään niin monien vanhentuneiden tai käyttökelvottomien vertailukehysten kanssa, joten otimme käyttöön vain arviointitilan Atroposissa, RL-ympäristökehyksessämme. Joten ensimmäinen porttimme olemassa olevien ympäristöjemme ulkopuolelta oli @natolambert's Reward-Bench! Huomaa: se tukee tällä hetkellä vain generatiivisia palkitsemismalleja (tavallisia LLM-tuomareita). Katso PR täältä:
25,21K