Há muita confusão online sobre o que realmente é um ambiente de RL. É literalmente apenas uma referência. - Um ambiente - Um estado inicial - Um verificador que verifica se um estado final está correto ou aceitável O ambiente é uma pequena caixa de areia que dá ao LLM a oportunidade de realmente interagir - agir, ver resultados e afetar o mundo em que está. No caso do TerminalBench, é apenas um contêiner do Docker que emula um terminal de desenvolvedor real, completo com arquivos, dependências e ferramentas de sistema que o modelo pode usar. O estado inicial define o que o modelo vê quando a tarefa começa — as entradas, o contexto e as condições iniciais. Em um benchmark de codificação, esse pode ser o estado de um repositório Git quando o usuário começou a trabalhar: os arquivos, o relatório de bugs, os testes com falha e o prompt inicial do usuário que informa ao modelo o que precisa ser feito. É a "configuração do problema", congelada no tempo, para que cada modelo comece na mesma posição e o resultado possa ser comparado de forma justa. Finalmente, o verificador é o que torna tudo mensurável. É a peça que verifica se o modelo realmente resolveu a tarefa - o juiz automatizado que transforma saídas confusas em uma pontuação simples ou sinal de aprovação / reprovação. É por isso que você ouve as pessoas nos laboratórios dizerem "nós treinamos em verificadores". Eles estão falando sobre ter uma maneira automatizada de pontuar o comportamento do modelo. Isso então se torna a função de recompensa para RL ou o sinal de aprovação/reprovação para benchmarks.