有趣的論文使整個強化學習(RL)軌跡可微分,從而實現時間上的反向傳播。他們採樣了「軟令牌」,將其反饋到變壓器中,並對其應用可微分的獎勵。非常酷的工作! 🔗