Mijn vrienden bij @eternisai hebben zojuist een paper gepubliceerd waaruit blijkt dat het trainen van AI-modellen op de moeilijkste voorbeelden leidt tot 40% betere prestaties op redeneertaken. Dit is tegenintuïtief voor mensen die graag leren met de gemakkelijkere dingen.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23 aug, 01:41
We introduceren een beter recept voor het verzamelen van post-training gegevens bij het gebruik van GRPO. Het verzamelen van monsters van experts is duur, annotatiebudgetten zijn beperkt. Welke voorbeelden zijn het eigenlijk waard om voor te betalen? We ontdekken dat de focus op moeilijke monsters resulteert in een verbetering van 30-40%. 1/7
359