Acabei de fundir um PR para um ambiente para melhorar o LLM como juiz, bem como avaliar modelos sobre sua capacidade de fazer julgamentos! Você sabia que todos os ambientes RL verificáveis são quase equivalentes a benchmarks (e vice-versa!)? Então, adicionamos um comando de avaliação à base da Atropos e agora você pode executar benchmarks através de ambientes Atropos. Ficamos frustrados por trabalhar com tantas estruturas de benchmark que estavam desatualizadas ou inutilizáveis, então implementamos o modo somente avaliação no Atropos, nossa estrutura de ambientes RL. Então, nosso primeiro port de fora de nossos ambientes existentes foi o Reward-Bench de @natolambert! Nota: de momento, apenas suporta modelos de recompensa generativa (juízes LLM regulares). Confira o PR aqui:
20,74K