حتى أننا حصلنا على @alexinexxx هنا يرشدنا خلال تنفيذها لورقة "Vision-SR1" في هذا الإعداد المزدوج ، يقوم النموذج أولا بإنشاء وصف مرئي للصورة ، ثم يستخدم هذا الوصف للإجابة على سؤال. شرح جيد للغاية شكرا ألكسين