incluso tenemos @alexinexxx aquí que nos guían a través de su implementación del documento "Vision-SR1" En esta configuración dual, el modelo primero genera una descripción visual de una imagen y, a continuación, utiliza esa descripción para responder a una pregunta. Súper bien explicado gracias Alexine