前沿模型的極端低效性 🧵 將前沿模型的訓練從下一個標記預測切換到強化學習(RL)需要每獲取一比特信息的計算量增加1,000到1,000,000倍。 1/11