Die extreme Ineffizienz von RL für Frontier-Modelle 🧵 Der Wechsel von der Ausbildung von Frontier-Modellen durch Vorhersage des nächsten Tokens zu Reinforcement Learning (RL) erfordert 1.000 bis 1.000.000 Mal so viel Rechenleistung pro Bit an Informationen, aus denen das Modell lernen kann. 1/11