Artigo interessante que torna toda a trajetória de RL diferenciável, permitindo a retropropagação ao longo do tempo. Eles amostram "tokens suaves", alimentam-nos de volta no transformador e aplicam uma recompensa diferenciável sobre eles. Trabalho muito legal! 🔗