Новая модель DeepSeek-OCR впечатляет, но наиболее интересным является возможность использования визуальных токенов на более фундаментальном уровне: могут ли модели выполнять рассуждения непосредственно в визуальном латентном пространстве?
"Хотя основной акцент сделан на OCR как на концепции, эта парадигма открывает новые возможности для переосмысления того, как модальности зрения и языка могут синергетически сочетаться для повышения вычислительной эффективности в обработке текста в больших масштабах и системах агентов."
Это может оказать огромное влияние на обработку документов в финансах, консалтинге и смежных областях. Ранее таблицы и графики были большой проблемой для моделей, чтобы правильно их считывать. Подпись: В области финансовых исследовательских отчетов глубокий режим разбора DeepSeek-OCR может быть использован для получения структурированных результатов графиков в документах. Графики являются важной формой представления данных в финансах и научных областях, и структурированная извлечение графиков является незаменимой возможностью для будущих моделей OCR.
7,22K