kami bahkan mendapat @alexinexxx di sini yang memandu kami melalui implementasi makalah "Vision-SR1" Dalam pengaturan ganda ini, model pertama-tama menghasilkan deskripsi visual gambar, lalu menggunakan deskripsi tersebut untuk menjawab pertanyaan. Dijelaskan dengan sangat baik terima kasih Alexine