Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Há muita confusão online sobre o que realmente é um ambiente RL.
É literalmente apenas um benchmark.
- Um ambiente
- Um estado inicial
- Um verificador que checa se um estado final é correto ou aceitável
O ambiente é uma pequena caixa de areia que dá à LLM a oportunidade de realmente interagir — tomar ações, ver resultados e afetar o mundo em que está. No caso do TerminalBench, é apenas um contêiner Docker que emula um terminal de desenvolvedor real, completo com arquivos, dependências e ferramentas do sistema que o modelo pode usar.
O estado inicial define o que o modelo vê quando a tarefa começa — as entradas, o contexto e as condições iniciais. Em um benchmark de codificação, isso pode ser o estado de um repositório Git quando o usuário começou a trabalhar: os arquivos, o relatório de bug, os testes que falharam e o prompt inicial do usuário que diz ao modelo o que precisa ser feito. É a "configuração do problema", congelada no tempo, para que cada modelo comece da mesma posição e o resultado possa ser comparado de forma justa.
Finalmente, o verificador é o que torna tudo mensurável. É a parte que verifica se o modelo realmente resolveu a tarefa — o juiz automatizado que transforma saídas confusas em uma pontuação simples ou sinal de aprovação/reprovação.
É por isso que você ouve pessoas em laboratórios dizerem "treinamos em verificadores". Elas estão falando sobre ter uma maneira automatizada de pontuar o comportamento do modelo. Isso se torna então a função de recompensa para RL, ou o sinal de aprovação/reprovação para benchmarks.

Top
Classificação
Favoritos

