chúng tôi thậm chí có @alexinexxx ở đây, người đã hướng dẫn chúng tôi qua việc thực hiện bài báo "Vision-SR1" trong thiết lập kép này, mô hình đầu tiên tạo ra một mô tả hình ảnh, sau đó sử dụng mô tả đó để trả lời một câu hỏi. giải thích rất tốt, cảm ơn alexine