Den extrema ineffektiviteten hos RL för Frontier-modeller 🧵 Växlingen från att träna gränsmodeller med next-token-prediction till reinforcement learning (RL) kräver 1 000-tals till 1 000 000-tals gånger så mycket beräkning per bit information som modellen får lära sig av. 1/11