Para avançar a fronteira de código aberto para RL + LLMs, precisamos de ambientes escaláveis e modulares com complexidade do mundo real, além de benchmarks matemáticos. Hoje, estamos lançando o *benchmax*. Um framework de código aberto para construir, executar e escalar ambientes úteis de RL para ajuste fino de LLM, com integrações para verl e verificadores (mais novidades em breve!).
10,66K