DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Ik heb zojuist een PR samengevoegd voor een omgeving om LLM als rechter te verbeteren en om modellen te evalueren op hun vermogen om oordelen te vellen! Wist je dat alle verifieerbare RL-omgevingen bijna gelijk zijn aan benchmarks (en vice versa!)? Dus hebben we een evaluatie-commando toegevoegd aan de basis van Atropos en nu kun je benchmarks uitvoeren via Atropos-omgevingen. We raakten gefrustreerd door het werken met zoveel benchmarkframeworks die verouderd of onbruikbaar waren, dus hebben we de evaluatiemodus geïmplementeerd in Atropos, ons RL-omgevingenframework. Dus onze eerste poort van buiten onze bestaande omgevingen was @natolambert's Reward-Bench! Let op: het ondersteunt op dit moment alleen generatieve beloningsmodellen (reguliere LLM-juryleden). Bekijk hier de PR:

20,69K

Boven

Positie

Favorieten

Populair op onchain

Populair op X

Recente topfinanciering

Belangrijkste