Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Atropos v0.3 jest już dostępny!
Nasz framework RL Environments przeszedł wiele ulepszeń od v0.2 - oto niektóre z nich:
- Atropos może teraz być używany jako framework do benchmarkingu i oceniania przez @rogershijin, z naszym pierwszym zewnętrznym benchmarkiem, Reward-Bench 2!
- Dodano Reasoning Gym, zewnętrzny repozytor środowisk gym przeniesiony do Atropos z ponad 100 zadaniami związanymi z rozumowaniem od @neurosp1ke i przyjaciół.
- @max_paperclips zintegrował bootcamp rozumowania @intern_lm, dodając ponad 1000 nowych zadań rozumowania dla RL.
- @dmayhem93, główny inżynier Atropos, dodał dziesiątki poprawek błędów oraz inne ulepszenia niezawodności i kompatybilności, lepsze wsparcie dla wielu środowisk oraz CI/CD.
- Wiele środowisk hackathonowych Atropos zostało połączonych w /environments/community - wymienienie ich wszystkich zajęłoby większość miejsca na ekranie, ale oto niektóre z nich:
VR-CLI od @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, projektowanie białek od @hallerite, środowisko routingu modeli od @gabinfay, wiele na dowodzenie lean, arena catbota, pokemon showdown, poker, pomocni lekarze, poezja sanskrycka od @khoomeik i wiele więcej!
- Inne godne uwagi nowo dodane oficjalnie wspierane środowiska to:
Format odpowiedzi zgodny ze środowiskiem
Środowisko Pydantic do JSON przeniesione z pracy @MatternJustus
Podążanie za instrukcjami przeniesione z pracy @natolambert i @allen_ai
Liczenie liter
- 47 zupełnie nowych współpracowników!
Sprawdź pełną listę zmian tutaj:

18 lip 2025
Właśnie połączyłem PR dla środowiska, aby ulepszyć LLM jako sędziego, a także ocenić modele pod kątem ich zdolności do wydawania osądów!
Czy wiesz, że wszystkie weryfikowalne środowiska RL są prawie równoważne z testami porównawczymi (i na odwrót!)? Dlatego dodaliśmy polecenie evaluate do bazy Atropos i teraz możesz przeprowadzać testy porównawcze za pośrednictwem środowisk Atropos.
Byliśmy sfrustrowani pracą z tak wieloma frameworkami porównawczymi, które były przestarzałe lub bezużyteczne, więc zaimplementowaliśmy tryb tylko do oceny w Atropos, naszym frameworku środowisk RL.
Tak więc naszym pierwszym portem spoza naszych dotychczasowych środowisk była @natolambert's Reward-Bench!
Uwaga: w tej chwili obsługuje tylko generatywne modele nagród (zwykli sędziowie LLM).
Sprawdź PR tutaj:

25,12K
Najlepsze
Ranking
Ulubione