Interessant paper dat de gehele RL-trajectorie differentieerbaar maakt, waardoor backpropagation door de tijd mogelijk is. Ze nemen "zachte tokens", voeren deze terug in de transformer en passen een differentieerbare beloning toe op hen. Erg cool werk! 🔗