Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Há muita confusão online sobre o que realmente é um ambiente de RL. 
É literalmente apenas uma referência. 
- Um ambiente
- Um estado inicial
- Um verificador que verifica se um estado final está correto ou aceitável
O ambiente é uma pequena caixa de areia que dá ao LLM a oportunidade de realmente interagir - agir, ver resultados e afetar o mundo em que está. No caso do TerminalBench, é apenas um contêiner do Docker que emula um terminal de desenvolvedor real, completo com arquivos, dependências e ferramentas de sistema que o modelo pode usar.
O estado inicial define o que o modelo vê quando a tarefa começa — as entradas, o contexto e as condições iniciais. Em um benchmark de codificação, esse pode ser o estado de um repositório Git quando o usuário começou a trabalhar: os arquivos, o relatório de bugs, os testes com falha e o prompt inicial do usuário que informa ao modelo o que precisa ser feito. É a "configuração do problema", congelada no tempo, para que cada modelo comece na mesma posição e o resultado possa ser comparado de forma justa.
Finalmente, o verificador é o que torna tudo mensurável. É a peça que verifica se o modelo realmente resolveu a tarefa - o juiz automatizado que transforma saídas confusas em uma pontuação simples ou sinal de aprovação / reprovação. 
É por isso que você ouve as pessoas nos laboratórios dizerem "nós treinamos em verificadores". Eles estão falando sobre ter uma maneira automatizada de pontuar o comportamento do modelo. Isso então se torna a função de recompensa para RL ou o sinal de aprovação/reprovação para benchmarks.

Melhores
Classificação
Favoritos

