Ik heb zojuist een PR samengevoegd voor een omgeving om LLM als rechter te verbeteren en om modellen te evalueren op hun vermogen om oordelen te vellen! Wist je dat alle verifieerbare RL-omgevingen bijna gelijk zijn aan benchmarks (en vice versa!)? Dus hebben we een evaluatie-commando toegevoegd aan de basis van Atropos en nu kun je benchmarks uitvoeren via Atropos-omgevingen. We raakten gefrustreerd door het werken met zoveel benchmarkframeworks die verouderd of onbruikbaar waren, dus hebben we de evaluatiemodus geïmplementeerd in Atropos, ons RL-omgevingenframework. Dus onze eerste poort van buiten onze bestaande omgevingen was @natolambert's Reward-Bench! Let op: het ondersteunt op dit moment alleen generatieve beloningsmodellen (reguliere LLM-juryleden). Bekijk hier de PR:
20,69K