O ajuste fino crowdsourced + RL está a ser subestimado.
TBPN
TBPN28/08/2025
.@willccbb (Líder de Pesquisa, Prime Intellect) sobre como os ambientes de RL realmente funcionam: “Um ambiente é essencialmente uma avaliação. Você tem tarefas de entrada, um suporte, e no final ele avalia como seu modelo ou agente se desempenha. Essa é a configuração que usamos tanto para avaliações quanto para treinamento de RL.” Ele acrescenta que o futuro não se trata apenas de “conseguir 100.000 GPUs em um único grande cluster.”
1,07K