Atropos v0.3 est maintenant disponible ! Notre cadre d'environnements RL a connu de nombreuses améliorations depuis v0.2 - quelques points forts : - Atropos peut désormais être utilisé comme un cadre de référence et d'évaluation par @rogershijin, avec notre premier benchmark externe, Reward-Bench 2 ! - Ajout du Reasoning Gym, un dépôt d'environnement externe porté dans Atropos avec plus de 100 tâches de raisonnement par @neurosp1ke et ses amis. - @max_paperclips a intégré le bootcamp de raisonnement de @intern_lm, ajoutant plus de 1000 nouvelles tâches de raisonnement pour RL. - @dmayhem93, l'ingénieur principal d'Atropos, a ajouté des dizaines de corrections de bogues et d'autres améliorations de fiabilité et de compatibilité, un meilleur support pour les environnements multiples, et CI/CD. - Beaucoup des environnements hackathon d'Atropos ont été fusionnés dans /environments/community - les énumérer tous prendrait presque tout l'espace de l'écran, mais quelques points forts : VR-CLI par @JakeABoggs, Philosophie RLAIF, Enseignants LLM Adaptatifs, WebVoyager, conception de protéines par @hallerite, un environnement de routage de modèle par @gabinfay, plusieurs sur la preuve lean, l'arène catbot, pokemon showdown, poker, médecins utiles, poésie sanskrite par @khoomeik et bien plus encore ! - D'autres nouveaux environnements officiellement supportés incluent : Format de réponse suivant l'environnement Environnement Pydantic vers JSON porté du travail de @MatternJustus Suivi des instructions porté du travail de @natolambert et @allen_ai Comptage de lettres - 47 nouveaux contributeurs ! Consultez le changelog complet ici :
Teknium (e/λ)
Teknium (e/λ)18 juil. 2025
Je viens de fusionner un RP pour un environnement permettant d’améliorer LLM en tant que juge ainsi que d’évaluer les modèles sur leur capacité à porter des jugements ! Saviez-vous que tous les environnements d’apprentissage par renforcement vérifiables sont presque équivalents à des benchmarks (et vice-versa !) ? Nous avons donc ajouté une commande evaluate à la base d’Atropos et vous pouvez maintenant exécuter des benchmarks dans les environnements Atropos. Nous étions frustrés de travailler avec autant de cadres de référence obsolètes ou inutilisables, nous avons donc implémenté le mode d’évaluation uniquement dans Atropos, notre cadre d’environnements RL. C’est pourquoi notre premier portage en dehors de nos environnements existants a été @natolambert’s Reward-Bench ! Remarque : il ne prend en charge que les modèles de récompense générative (juges LLM réguliers) pour le moment. Consultez le communiqué de presse ici :
25,12K