Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Только что объединил PR для среды, чтобы улучшить LLM как судью, а также оценить модели на их способность выносить суждения!
Знаете ли вы, что все проверяемые среды RL почти эквивалентны бенчмаркам (и наоборот!)? Поэтому мы добавили команду evaluate на базу Atropos, и теперь вы можете запускать бенчмарки в средах Atropos.
Мы разочаровались в работе с таким количеством фреймворков для тестирования, которые были устаревшими или непригодными для использования, поэтому мы внедрили режим только оценки в Atropos, наш фреймворк RL-сред.
Так что нашим первым портом за пределами существующих сред стал @natolambert's Reward-Bench!
Примечание: на данный момент он поддерживает только генеративные модели вознаграждения (обычные судьи LLM).
Ознакомьтесь с PR здесь:

20,67K
Топ
Рейтинг
Избранное