ми навіть залучили сюди @alexinexxx, які ознайомлюють нас з її реалізацією статті "Vision-SR1" У цій подвійній конфігурації модель спочатку генерує візуальний опис зображення, а потім використовує цей опис, щоб відповісти на запитання. Дуже добре пояснив, дякую Алексін