De grootste vraag in RL-onderzoek is altijd geweest: in welke omgeving train je? Vroeger waren het video- (Atari) en bordspellen (Go / Chess). Maar nu RL met LLM's werkt, is er maar één omgeving die ertoe doet. En het is uw product.
Kevin Lu
Kevin Lu10 jul 2025
Waarom je zou moeten stoppen met werken aan RL-onderzoek en in plaats daarvan aan product zou moeten werken // De technologie die de grote schaalverschuiving in AI heeft ontgrendeld, is het internet, niet transformatoren Ik denk dat het algemeen bekend is dat data het belangrijkste is in AI, en ook dat onderzoekers ervoor kiezen om er toch niet aan te werken. ... Wat betekent het om (op een schaalbare manier) aan data te werken? Het internet bood een rijke bron van overvloedige gegevens, die divers was, een natuurlijk curriculum bood, de competenties vertegenwoordigde waar mensen echt om geven, en een economisch levensvatbare technologie was om op grote schaal in te zetten - het werd de perfecte aanvulling op de voorspelling van het volgende token en was de oersoep voor AI om van de grond te komen. Zonder transformatoren had een willekeurig aantal benaderingen van de grond kunnen komen, we hadden waarschijnlijk CNN's of staatsruimtemodellen kunnen hebben op het niveau van GPT-4.5. Maar er is geen dramatische verbetering opgetreden in basismodellen sinds GPT-4. Redeneermodellen zijn geweldig in smalle domeinen, maar niet zo'n grote sprong als GPT-4 in maart 2023 (meer dan 2 jaar geleden...) We hebben iets geweldigs met reinforcement learning, maar mijn diepe angst is dat we de fouten uit het verleden (RL uit 2015-2020) zullen herhalen en RL-onderzoek zullen doen dat er niet toe doet. Op de manier waarop internet de duale was van begeleide pretraining, wat zal de duale van RL zijn die zal leiden tot een enorme vooruitgang zoals GPT-1 -> GPT-4? Ik denk dat het lijkt op co-design tussen onderzoek en product.
11,13K