Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Misha Laskin
Medeoprichter, CEO bij @reflection_ai. Vorige: Onderzoek @DeepMind. Gemini RL-team.
Er gaat morgen iets groots gebeuren. Dit zijn enkele van de meest getalenteerde onderzoekers die ik ken.

Deepak Pathak28 jul 2025
Gelukkig om samen te werken met een geweldig team @SkildAI. Bekijk de teaser van tien jaar bijdragen van ons team vóór Skild AI.
Blijf op de hoogte voor de release morgen!
2,59K
Misha Laskin heeft opnieuw gepost
Ik was een van de 16 ontwikkelaars in deze studie. Ik wilde spreken over mijn mening over de oorzaken en mitigatiestrategieën voor dev-vertraging.
Ik zal zeggen als een "waarom naar je luisteren?" hook dat ik een AI-versnelling van -38% ervoer op mijn toegewezen problemen. Ik denk dat transparantie de gemeenschap helpt.

1,96M
De grootste vraag in RL-onderzoek is altijd geweest: in welke omgeving train je?
Vroeger waren het video- (Atari) en bordspellen (Go / Chess).
Maar nu RL met LLM's werkt, is er maar één omgeving die ertoe doet. En het is uw product.

Kevin Lu10 jul 2025
Waarom je zou moeten stoppen met werken aan RL-onderzoek en in plaats daarvan aan product zou moeten werken //
De technologie die de grote schaalverschuiving in AI heeft ontgrendeld, is het internet, niet transformatoren
Ik denk dat het algemeen bekend is dat data het belangrijkste is in AI, en ook dat onderzoekers ervoor kiezen om er toch niet aan te werken. ... Wat betekent het om (op een schaalbare manier) aan data te werken?
Het internet bood een rijke bron van overvloedige gegevens, die divers was, een natuurlijk curriculum bood, de competenties vertegenwoordigde waar mensen echt om geven, en een economisch levensvatbare technologie was om op grote schaal in te zetten - het werd de perfecte aanvulling op de voorspelling van het volgende token en was de oersoep voor AI om van de grond te komen.
Zonder transformatoren had een willekeurig aantal benaderingen van de grond kunnen komen, we hadden waarschijnlijk CNN's of staatsruimtemodellen kunnen hebben op het niveau van GPT-4.5. Maar er is geen dramatische verbetering opgetreden in basismodellen sinds GPT-4. Redeneermodellen zijn geweldig in smalle domeinen, maar niet zo'n grote sprong als GPT-4 in maart 2023 (meer dan 2 jaar geleden...)
We hebben iets geweldigs met reinforcement learning, maar mijn diepe angst is dat we de fouten uit het verleden (RL uit 2015-2020) zullen herhalen en RL-onderzoek zullen doen dat er niet toe doet.
Op de manier waarop internet de duale was van begeleide pretraining, wat zal de duale van RL zijn die zal leiden tot een enorme vooruitgang zoals GPT-1 -> GPT-4? Ik denk dat het lijkt op co-design tussen onderzoek en product.

11,15K
Misha Laskin heeft opnieuw gepost
Het is eenvoudig om kleine modellen met RL te verfijnen zodat ze beter presteren dan fundamentmodellen op verticale taken.
We maken Osmosis-Apply-1.7B open source: een klein model dat code (vergelijkbaar met de directe toepassing van Cursor) beter samenvoegt dan fundamentmodellen.
Links om het model te downloaden en uit te proberen hieronder!
111,6K
Boven
Positie
Favorieten
Populair op onchain
Populair op X
Recente topfinanciering
Belangrijkste