saimme jopa @alexinexxx tänne, jotka opastavat meitä hänen toteuttamansa paperin "Vision-SR1" läpi. Tässä kaksoisasetuksessa malli luo ensin kuvasta visuaalisen kuvauksen ja käyttää sitten kuvausta kysymykseen vastaamiseen. Super hyvin selitetty kiitos Alexine