vi fikk til og med @alexinexxx her inne som leder oss gjennom implementeringen hennes av papiret "Vision-SR1" I dette doble oppsettet genererer modellen først en visuell beskrivelse av et bilde, og bruker deretter denne beskrivelsen til å svare på et spørsmål. Super godt forklart takk Alexine