我们甚至请到了 @alexinexxx 来为我们讲解她对论文《Vision-SR1》的实现。 在这个双重设置中,模型首先生成图像的视觉描述,然后使用该描述来回答问题。 解释得非常好,谢谢你,alexine。