para agentes conversacionais, o usuário é o ambiente. pode-se considerar cada conversa como uma execução de uma política que direciona o usuário para o objetivo do modelo.