Pour faire avancer la frontière de l'open source pour RL + LLMs, nous avons besoin d'environnements modulaires et évolutifs avec une complexité du monde réel, au-delà des benchmarks mathématiques. Aujourd'hui, nous lançons *benchmax*. Un cadre open-source pour construire, exécuter et évoluer des environnements RL utiles pour le fine-tuning des LLM, avec des intégrations à verl et des vérificateurs (plus à venir bientôt !).
10,65K