DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

"Een van de zeer verwarrende dingen over de modellen op dit moment: hoe de feiten te verzoenen dat ze het zo goed doen op evaluaties. En je kijkt naar de evaluaties en je denkt: 'Dat zijn best moeilijke evaluaties.' Maar de economische impact lijkt dramatisch achter te blijven. Er is [een mogelijke] verklaring. Toen mensen bezig waren met pre-training, was de vraag op welke data te trainen beantwoord, omdat dat antwoord alles was. Dus je hoeft niet na te denken of het deze data of die data gaat zijn. Wanneer mensen RL-training doen, zeggen ze: 'Oké, we willen deze soort RL-training voor dit ding en die soort RL-training voor dat ding.' Je zegt: 'Hé, ik zou willen dat ons model het echt goed doet wanneer we het uitbrengen. Ik wil dat de evaluaties er geweldig uitzien. Wat zou RL-training zijn die kan helpen bij deze taak?' Als je dit combineert met de generalisatie van de modellen die eigenlijk onvoldoende is, heeft dat het potentieel om veel van wat we zien te verklaren, deze kloof tussen evaluatieprestaties en daadwerkelijke prestaties in de echte wereld."

Boven

Positie

Favorieten