Mô hình DeepSeek-OCR mới thật ấn tượng, nhưng điều thú vị nhất là khả năng sử dụng các token hình ảnh ở cấp độ cơ bản hơn: Liệu các mô hình có thể thực hiện suy luận trực tiếp trong không gian tiềm ẩn hình ảnh không?
"Mặc dù tập trung vào OCR như một bằng chứng về khái niệm, nhưng mô hình này mở ra những khả năng mới để suy nghĩ lại cách mà các phương thức thị giác và ngôn ngữ có thể được kết hợp một cách hợp tác để nâng cao hiệu quả tính toán trong việc xử lý văn bản quy mô lớn và các hệ thống tác nhân."
Điều này có thể có tác động lớn đến việc xử lý tài liệu trong lĩnh vực tài chính, tư vấn và các lĩnh vực liên quan. Trước đây, bảng và biểu đồ là một vấn đề lớn đối với các mô hình để đọc chính xác. Chú thích: Trong lĩnh vực báo cáo nghiên cứu tài chính, chế độ phân tích sâu của DeepSeek-OCR có thể được sử dụng để thu được kết quả có cấu trúc của các biểu đồ trong tài liệu. Biểu đồ là một hình thức đại diện dữ liệu quan trọng trong lĩnh vực tài chính và khoa học, và việc trích xuất cấu trúc biểu đồ là một khả năng không thể thiếu cho các mô hình OCR trong tương lai.
7,2K