Moi przyjaciele z @eternisai właśnie opublikowali artykuł, który pokazuje, że trenowanie modeli AI na najtrudniejszych przykładach prowadzi do 40% lepszej wydajności w zadaniach związanych z rozumowaniem. To jest sprzeczne z intuicją ludzi, którzy wolą uczyć się na łatwiejszych materiałach.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23 sie, 01:41
Wprowadzamy lepszy przepis na zbieranie danych po treningu przy użyciu GRPO. Zbieranie próbek od ekspertów jest kosztowne, budżety na adnotacje są ograniczone. Które przykłady są naprawdę warte zapłacenia? Odkrywamy, że skupienie się na trudnych próbkach skutkuje poprawą o 30-40%. 1/7
354