Atropos v0.3 jest już dostępny! Nasz framework RL Environments przeszedł wiele ulepszeń od v0.2 - oto niektóre z nich: - Atropos może teraz być używany jako framework do benchmarkingu i oceniania przez @rogershijin, z naszym pierwszym zewnętrznym benchmarkiem, Reward-Bench 2! - Dodano Reasoning Gym, zewnętrzny repozytor środowisk gym przeniesiony do Atropos z ponad 100 zadaniami związanymi z rozumowaniem od @neurosp1ke i przyjaciół. - @max_paperclips zintegrował bootcamp rozumowania @intern_lm, dodając ponad 1000 nowych zadań rozumowania dla RL. - @dmayhem93, główny inżynier Atropos, dodał dziesiątki poprawek błędów oraz inne ulepszenia niezawodności i kompatybilności, lepsze wsparcie dla wielu środowisk oraz CI/CD. - Wiele środowisk hackathonowych Atropos zostało połączonych w /environments/community - wymienienie ich wszystkich zajęłoby większość miejsca na ekranie, ale oto niektóre z nich: VR-CLI od @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, projektowanie białek od @hallerite, środowisko routingu modeli od @gabinfay, wiele na dowodzenie lean, arena catbota, pokemon showdown, poker, pomocni lekarze, poezja sanskrycka od @khoomeik i wiele więcej! - Inne godne uwagi nowo dodane oficjalnie wspierane środowiska to: Format odpowiedzi zgodny ze środowiskiem Środowisko Pydantic do JSON przeniesione z pracy @MatternJustus Podążanie za instrukcjami przeniesione z pracy @natolambert i @allen_ai Liczenie liter - 47 zupełnie nowych współpracowników! Sprawdź pełną listę zmian tutaj:
Teknium (e/λ)
Teknium (e/λ)18 lip 2025
Właśnie połączyłem PR dla środowiska, aby ulepszyć LLM jako sędziego, a także ocenić modele pod kątem ich zdolności do wydawania osądów! Czy wiesz, że wszystkie weryfikowalne środowiska RL są prawie równoważne z testami porównawczymi (i na odwrót!)? Dlatego dodaliśmy polecenie evaluate do bazy Atropos i teraz możesz przeprowadzać testy porównawcze za pośrednictwem środowisk Atropos. Byliśmy sfrustrowani pracą z tak wieloma frameworkami porównawczymi, które były przestarzałe lub bezużyteczne, więc zaimplementowaliśmy tryb tylko do oceny w Atropos, naszym frameworku środowisk RL. Tak więc naszym pierwszym portem spoza naszych dotychczasowych środowisk była @natolambert's Reward-Bench! Uwaga: w tej chwili obsługuje tylko generatywne modele nagród (zwykli sędziowie LLM). Sprawdź PR tutaj:
25,12K