Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Acabei de fundir um PR para um ambiente para melhorar o LLM como juiz, bem como avaliar modelos sobre sua capacidade de fazer julgamentos!
Você sabia que todos os ambientes RL verificáveis são quase equivalentes a benchmarks (e vice-versa!)? Então, adicionamos um comando de avaliação à base da Atropos e agora você pode executar benchmarks através de ambientes Atropos.
Ficamos frustrados por trabalhar com tantas estruturas de benchmark que estavam desatualizadas ou inutilizáveis, então implementamos o modo somente avaliação no Atropos, nossa estrutura de ambientes RL.
Então, nosso primeiro port de fora de nossos ambientes existentes foi o Reward-Bench de @natolambert!
Nota: de momento, apenas suporta modelos de recompensa generativa (juízes LLM regulares).
Confira o PR aqui:

20,74K
Top
Classificação
Favoritos