temos até a @alexinexxx aqui que nos guia através da sua implementação do artigo "Vision-SR1" eneste setup duplo, o modelo primeiro gera uma descrição visual de uma imagem, depois usa essa descrição para responder a uma pergunta. super bem explicado, obrigado alexine