Meus amigos da @eternisai acabaram de publicar um artigo mostrando que treinar modelos de IA nos exemplos mais difíceis leva a um desempenho 40% melhor em tarefas de raciocínio. Isso é contraintuitivo para os humanos que gostam de aprender com coisas mais fáceis.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23/08/2025
Apresentamos uma receita melhor para coletar dados pós-treinamento ao usar GRPO. Coletar amostras de especialistas é caro, os orçamentos de anotação são limitados. Quais exemplos realmente valem a pena pagar? Descobrimos que focar em amostras difíceis resulta em uma melhoria de 30-40%. 1/7
418