we hebben zelfs @alexinexxx hier die ons meeneemt in haar implementatie van het paper "Vision-SR1" in deze duale opstelling genereert het model eerst een visuele beschrijving van een afbeelding, en gebruikt die beschrijving vervolgens om een vraag te beantwoorden. super goed uitgelegd, bedankt alexine