abbiamo anche @alexinexxx qui che ci guida attraverso la sua implementazione del documento "Vision-SR1" in questa configurazione duale, il modello prima genera una descrizione visiva di un'immagine, poi utilizza quella descrizione per rispondere a una domanda. spiegato molto bene, grazie alexine