Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mijn vrienden bij @eternisai hebben zojuist een paper gepubliceerd waaruit blijkt dat het trainen van AI-modellen op de moeilijkste voorbeelden leidt tot 40% betere prestaties op redeneertaken. Dit is tegenintuïtief voor mensen die graag leren met de gemakkelijkere dingen.

23 aug, 01:41
We introduceren een beter recept voor het verzamelen van post-training gegevens bij het gebruik van GRPO. Het verzamelen van monsters van experts is duur, annotatiebudgetten zijn beperkt. Welke voorbeelden zijn het eigenlijk waard om voor te betalen? We ontdekken dat de focus op moeilijke monsters resulteert in een verbetering van 30-40%.
1/7

359
Boven
Positie
Favorieten