Ekstremalna nieefektywność RL w modelach Frontier 🧵 Przejście z trenowania modeli frontier poprzez przewidywanie następnego tokena na uczenie przez wzmocnienie (RL) wymaga od 1,000 do 1,000,000 razy więcej mocy obliczeniowej na bit informacji, z którego model ma się uczyć. 1/11