Крайня неефективність RL для моделей Frontier 🧵 Перехід від моделей тренувальних кордонів за допомогою прогнозування наступних токенів до навчання з підкріпленням (RL) вимагає від 1 000 до 1 000 000 обчислень у раз більше обчислень на біт інформації, з якої модель отримує навчання. 1/11