L'estrema inefficienza del RL per i modelli Frontier 🧵 Il passaggio dall'addestramento dei modelli frontier tramite previsione del token successivo all'apprendimento per rinforzo (RL) richiede da 1.000 a 1.000.000 volte più potenza di calcolo per ogni bit di informazione da cui il modello può apprendere. 1/11