La extrema ineficiencia del RL para modelos Frontier 🧵 El cambio de entrenar modelos frontier mediante la predicción del siguiente token a aprendizaje por refuerzo (RL) requiere de 1,000 a 1,000,000 veces más computación por cada bit de información del que el modelo puede aprender. 1/11