Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Een van de zeer verwarrende dingen over de modellen op dit moment: hoe de feiten te verzoenen dat ze het zo goed doen op evaluaties.
En je kijkt naar de evaluaties en je denkt: 'Dat zijn best moeilijke evaluaties.'
Maar de economische impact lijkt dramatisch achter te blijven.
Er is [een mogelijke] verklaring. Toen mensen bezig waren met pre-training, was de vraag op welke data te trainen beantwoord, omdat dat antwoord alles was. Dus je hoeft niet na te denken of het deze data of die data gaat zijn.
Wanneer mensen RL-training doen, zeggen ze: 'Oké, we willen deze soort RL-training voor dit ding en die soort RL-training voor dat ding.'
Je zegt: 'Hé, ik zou willen dat ons model het echt goed doet wanneer we het uitbrengen. Ik wil dat de evaluaties er geweldig uitzien. Wat zou RL-training zijn die kan helpen bij deze taak?'
Als je dit combineert met de generalisatie van de modellen die eigenlijk onvoldoende is, heeft dat het potentieel om veel van wat we zien te verklaren, deze kloof tussen evaluatieprestaties en daadwerkelijke prestaties in de echte wereld."
Boven
Positie
Favorieten

