Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Atropos v0.3 ist jetzt verfügbar!
Unser RL Environments-Framework hat seit v0.2 viele Verbesserungen erfahren - einige Highlights:
- Atropos kann jetzt von @rogershijin als Benchmarking- und Evaluierungs-Framework verwendet werden, mit unserem ersten externen Benchmark, Reward-Bench 2!
- Hinzugefügt wurde das Reasoning Gym, ein externes Umgebungs-Gym-Repo, das in Atropos portiert wurde und über 100 Denkaufgaben von @neurosp1ke und Freunden enthält.
- @max_paperclips hat das Reasoning Bootcamp von @intern_lm integriert und über 1000 neue Denkaufgaben für RL hinzugefügt.
- @dmayhem93, der leitende Ingenieur von Atropos, hat Dutzende von Bugfixes und andere Verbesserungen der Zuverlässigkeit und Kompatibilität hinzugefügt, bessere Unterstützung für mehrere Umgebungen und CI/CD.
- Viele der Atropos-Hackathon-Umgebungen wurden in /environments/community zusammengeführt - sie alle aufzulisten würde den meisten Platz auf dem Bildschirm einnehmen, aber einige Highlights sind:
VR-CLI von @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, Protein-Design von @hallerite, eine Modell-Routing-Umgebung von @gabinfay, mehrere auf Lean-Proving, die Catbot-Arena, Pokémon Showdown, Poker, hilfreiche Ärzte, Sanskrit-Poesie von @khoomeik und so viel mehr!
- Weitere bemerkenswerte offiziell unterstützte neue Umgebungen sind:
Antwortformat folgende Umgebung
Pydantic zu JSON-Umgebung, portiert von @MatternJustus' Arbeit
Instruction Following, portiert von @natolambert und @allen_ai's Arbeit
Buchstaben zählen
- 47 brandneue Mitwirkende!
Siehe das vollständige Änderungsprotokoll hier:

18. Juli 2025
Ich habe gerade eine PR für eine Umgebung zusammengeführt, um LLM als Richter zu verbessern und Modelle auf ihre Fähigkeit zur Urteilsfindung hin zu bewerten!
Wussten Sie, dass alle überprüfbaren RL-Umgebungen nahezu äquivalent zu Benchmarks sind (und umgekehrt!)? Also haben wir der Atropos-Basis einen Evaluate-Befehl hinzugefügt und jetzt können Sie Benchmarks in Atropos-Umgebungen durchführen.
Wir waren frustriert, mit so vielen Benchmark-Frameworks zu arbeiten, die veraltet oder unbrauchbar waren, also haben wir den reinen Evaluierungsmodus in Atropos, unser RL-Umgebungs-Framework, implementiert.
Unsere erste Portierung von außerhalb unserer bestehenden Umgebungen war also die Reward-Bench von @natolambert!
Hinweis: Derzeit werden nur generative Belohnungsmodelle (reguläre LLM-Judges) unterstützt.
Schauen Sie sich die PR hier an:

25,11K
Top
Ranking
Favoriten