Цікава стаття, яка робить всю траєкторію RL диференційовною, дозволяючи зворотному поширенню в часі. Вони пробують «м'які токени», подають їх назад у трансформер і накладають на них диференційовану винагороду. Дуже класна робота! 🔗