Ett annat bra inlägg. "Vi kommer att behöva bygga massor av nya miljöer för att försöka lära oss olika färdigheter via RL-utbildning." Kunde inte vara mer hausse på @PrimeIntellect Bonus: inlägget nämner också modellsoppa/sammanslagning vilket jag tror är vad PI ursprungligen arbetade med 2023(?)
Jack Morris
Jack Morris11 juli 2025
ny blogg: Hur man skalar RL till 10^26 FLOPPs alla försöker ta reda på det rätta sättet att skala resonemang med RL Ilya jämförde internet med fossila bränslen: det kan vara den enda användbara data vi har. Och det är förbrukningsbart kanske borde vi lära oss att resonera från Internet (inte bara matte och kod)
33,19K