Только что объединил PR для среды, чтобы улучшить LLM как судью, а также оценить модели на их способность выносить суждения! Знаете ли вы, что все проверяемые среды RL почти эквивалентны бенчмаркам (и наоборот!)? Поэтому мы добавили команду evaluate на базу Atropos, и теперь вы можете запускать бенчмарки в средах Atropos. Мы разочаровались в работе с таким количеством фреймворков для тестирования, которые были устаревшими или непригодными для использования, поэтому мы внедрили режим только оценки в Atropos, наш фреймворк RL-сред. Так что нашим первым портом за пределами существующих сред стал @natolambert's Reward-Bench! Примечание: на данный момент он поддерживает только генеративные модели вознаграждения (обычные судьи LLM). Ознакомьтесь с PR здесь:
20,67K