Atropos v0.3 теперь доступен! Наша структура RL Environments получила множество обновлений с версии v0.2 - некоторые основные моменты: - Atropos теперь можно использовать в качестве фреймворка для бенчмаркинга и оценок от @rogershijin, с нашим первым внешним бенчмарком, Reward-Bench 2! - Добавлен Reasoning Gym, внешний репозиторий среды, портированный в Atropos с более чем 100 задачами на рассуждение от @neurosp1ke и друзей. - @max_paperclips интегрировал bootcamp по рассуждению от @intern_lm, добавив более 1000 новых задач на рассуждение для RL. - @dmayhem93, главный инженер Atropos, добавил десятки исправлений ошибок и другие улучшения надежности и совместимости, лучшее поддержка для многосреды и CI/CD. - Многие среды хакатона Atropos были объединены в /environments/community - перечислить их все заняло бы большую часть экрана, но некоторые основные моменты: VR-CLI от @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, проектирование белка от @hallerite, среда маршрутизации модели от @gabinfay, множественные доказательства на lean, арена котоботов, pokemon showdown, покер, полезные врачи, санскритская поэзия от @khoomeik и многое другое! - Другие примечательные официально поддерживаемые новые среды включают: Формат ответа, следующий среде Pydantic в JSON, портированный из работы @MatternJustus Следование инструкциям, портированное из работы @natolambert и @allen_ai Подсчет букв - 47 совершенно новых участников! Посмотрите полный журнал изменений здесь:
Teknium (e/λ)
Teknium (e/λ)18 июл. 2025 г.
Только что объединил PR для среды, чтобы улучшить LLM как судью, а также оценить модели на их способность выносить суждения! Знаете ли вы, что все проверяемые среды RL почти эквивалентны бенчмаркам (и наоборот!)? Поэтому мы добавили команду evaluate на базу Atropos, и теперь вы можете запускать бенчмарки в средах Atropos. Мы разочаровались в работе с таким количеством фреймворков для тестирования, которые были устаревшими или непригодными для использования, поэтому мы внедрили режим только оценки в Atropos, наш фреймворк RL-сред. Так что нашим первым портом за пределами существующих сред стал @natolambert's Reward-Bench! Примечание: на данный момент он поддерживает только генеративные модели вознаграждения (обычные судьи LLM). Ознакомьтесь с PR здесь:
25,16K