В интернете много путаницы относительно того, что такое RL-окружение на самом деле. Это буквально просто эталон. - Окружение - Начальное состояние - Проверяющее устройство, которое проверяет, является ли конечное состояние правильным или приемлемым Окружение — это небольшая песочница, которая дает LLM возможность взаимодействовать — предпринимать действия, видеть результаты и влиять на мир, в котором она находится. В случае TerminalBench это просто контейнер Docker, который эмулирует реальный терминал разработчика, с файлами, зависимостями и системными инструментами, которые модель может использовать. Начальное состояние определяет, что модель видит, когда задача начинается — входные данные, контекст и начальные условия. В эталоне кодирования это может быть состояние репозитория Git, когда пользователь впервые начал работать: файлы, отчет об ошибках, неудачные тесты и начальный запрос пользователя, который говорит модели, что нужно сделать. Это "настройка проблемы", замороженная во времени, так что каждая модель начинает с одной и той же позиции, и результат можно сравнивать справедливо. Наконец, проверяющее устройство — это то, что делает все это измеримым. Это элемент, который проверяет, действительно ли модель решила задачу — автоматический судья, который превращает неаккуратные результаты в простой балл или сигнал о прохождении/непрохождении. Вот почему вы слышите, как люди в лабораториях говорят: "мы обучались на проверяющих". Они говорят о наличии автоматического способа оценивать поведение модели. Это затем становится функцией вознаграждения для RL или сигналом о прохождении/непрохождении для эталонов.