Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Há muita confusão online sobre o que realmente é um ambiente RL. É literalmente apenas um benchmark. - Um ambiente - Um estado inicial - Um verificador que checa se um estado final é correto ou aceitável O ambiente é uma pequena caixa de areia que dá à LLM a oportunidade de realmente interagir — tomar ações, ver resultados e afetar o mundo em que está. No caso do TerminalBench, é apenas um contêiner Docker que emula um terminal de desenvolvedor real, completo com arquivos, dependências e ferramentas do sistema que o modelo pode usar. O estado inicial define o que o modelo vê quando a tarefa começa — as entradas, o contexto e as condições iniciais. Em um benchmark de codificação, isso pode ser o estado de um repositório Git quando o usuário começou a trabalhar: os arquivos, o relatório de bug, os testes que falharam e o prompt inicial do usuário que diz ao modelo o que precisa ser feito. É a "configuração do problema", congelada no tempo, para que cada modelo comece da mesma posição e o resultado possa ser comparado de forma justa. Finalmente, o verificador é o que torna tudo mensurável. É a parte que verifica se o modelo realmente resolveu a tarefa — o juiz automatizado que transforma saídas confusas em uma pontuação simples ou sinal de aprovação/reprovação. É por isso que você ouve pessoas em laboratórios dizerem "treinamos em verificadores". Elas estão falando sobre ter uma maneira automatizada de pontuar o comportamento do modelo. Isso se torna então a função de recompensa para RL, ou o sinal de aprovação/reprovação para benchmarks.

Top

Classificação

Favoritos