我們甚至邀請了 @alexinexxx 來這裡,帶我們了解她對論文「Vision-SR1」的實作。 在這個雙重設置中,模型首先生成圖像的視覺描述,然後使用該描述來回答問題。 解釋得非常好,謝謝你,alexine