Vi fick till och med @alexinexxx här inne som går igenom hennes implementering av pappret "Vision-SR1" I den här dubbla uppställningen genererar modellen först en visuell beskrivning av en bild och använder sedan den beskrivningen för att besvara en fråga. super väl förklarat tack Alexine