La extrema ineficiencia de RL para los modelos Frontier 🧵 El cambio de modelos de frontera de entrenamiento mediante la predicción de tokens siguientes al aprendizaje por refuerzo (RL) requiere de 1,000 a 1,000,000 de veces más computación por bit de información del que aprende el modelo. 1/11