Meine Freunde bei @eternisai haben gerade ein Papier veröffentlicht, das zeigt, dass das Training von KI-Modellen mit den schwierigsten Beispielen zu einer um 40 % besseren Leistung bei Denkaufgaben führt. Das ist kontraintuitiv für Menschen, die gerne mit einfacheren Dingen lernen.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23. Aug., 01:41
Wir stellen ein besseres Rezept zur Sammlung von Post-Training-Daten bei der Verwendung von GRPO vor. Die Sammlung von Proben von Experten ist teuer, die Budgets für Annotationen sind begrenzt. Welche Beispiele sind es tatsächlich wert, dafür zu bezahlen? Wir stellen fest, dass die Fokussierung auf schwierige Proben zu einer Verbesserung von 30-40 % führt. 1/7
347