Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ik heb zojuist een PR samengevoegd voor een omgeving om LLM als rechter te verbeteren en om modellen te evalueren op hun vermogen om oordelen te vellen!
Wist je dat alle verifieerbare RL-omgevingen bijna gelijk zijn aan benchmarks (en vice versa!)? Dus hebben we een evaluatie-commando toegevoegd aan de basis van Atropos en nu kun je benchmarks uitvoeren via Atropos-omgevingen.
We raakten gefrustreerd door het werken met zoveel benchmarkframeworks die verouderd of onbruikbaar waren, dus hebben we de evaluatiemodus geïmplementeerd in Atropos, ons RL-omgevingenframework.
Dus onze eerste poort van buiten onze bestaande omgevingen was @natolambert's Reward-Bench!
Let op: het ondersteunt op dit moment alleen generatieve beloningsmodellen (reguliere LLM-juryleden).
Bekijk hier de PR:

20,69K
Boven
Positie
Favorieten