Wir haben sogar @alexinexxx hier, die uns durch ihre Umsetzung des Papiers „Vision-SR1“ führt. In diesem Dual-Setup generiert das Modell zuerst eine visuelle Beschreibung eines Bildes und verwendet dann diese Beschreibung, um eine Frage zu beantworten. Super gut erklärt, danke alexine