ここには、彼女の論文「Vision-SR1」の実装について説明してもらった@alexinexxxもいます この二重設定では、モデルは最初に画像の視覚的な説明を生成し、次にその説明を使用して質問に答えます。 非常によく説明されました、ありがとうアレクシン