De Extreme Inefficiëntie van RL voor Frontier Modellen 🧵 De overstap van het trainen van frontier modellen door middel van next-token-prediction naar reinforcement learning (RL) vereist 1.000 tot 1.000.000 keer zoveel rekenkracht per bit informatie waar het model van kan leren. 1/11