acabei de empurrar meu primeiro ambiente RL multi-turno para @PrimeIntellect a configuração: o modelo obtém o título da história + pergunta do QuALITY (histórias longas, perguntas de múltipla escolha). tts única ferramenta: pesquisa AGR agêntica sobre a história.
12,44K