Nếu bạn thắc mắc sự khác biệt giữa LLM và VLA Bạn đã biết về LLM Bạn sẽ sớm tìm hiểu về VLA (khi bạn mất việc làm lật bánh cho một con robot) Codec đã mã hóa
CodecFlow
CodecFlow18:03 22 thg 8
VLAs vẫn còn rất mới và nhiều người thấy khó khăn trong việc hiểu sự khác biệt giữa VLAs và LLMs. Dưới đây là một cái nhìn sâu sắc về cách mà các hệ thống AI này khác nhau trong lý luận, cảm nhận và hành động. Phần 1. Hãy phân tích những điểm khác biệt chính và cách mà các tác nhân AI được bao quanh bởi một LLM khác với các tác nhân điều hành sử dụng mô hình VLA: 1. Cảm nhận: Cách họ cảm nhận thế giới Tác nhân (LLM): Xử lý văn bản hoặc dữ liệu có cấu trúc như JSON, API, và đôi khi là hình ảnh. Nó giống như một bộ não làm việc với các đầu vào sạch sẽ, trừu tượng. Hãy nghĩ đến việc đọc một hướng dẫn hoặc phân tích một bảng tính. Tuyệt vời cho các môi trường có cấu trúc nhưng bị giới hạn bởi những gì được cung cấp cho nó. Điều hành (VLA): Nhìn thấy các pixel thô, thời gian thực từ camera, cộng với dữ liệu cảm biến (ví dụ: cảm ứng, vị trí) và cảm giác vị trí (nhận thức về chuyển động). Nó giống như việc điều hướng thế giới bằng mắt và các giác quan, phát triển trong các môi trường động, lộn xộn như giao diện người dùng hoặc không gian vật lý. 2. Hành động: Cách họ tương tác Tác nhân: Hành động bằng cách gọi các hàm, công cụ hoặc API. Hãy tưởng tượng nó như một người quản lý gửi các chỉ dẫn chính xác như "đặt vé máy bay qua API Expedia." Nó có chủ đích nhưng phụ thuộc vào các công cụ đã được xây dựng sẵn và các giao diện rõ ràng. Điều hành: Thực hiện các hành động liên tục, cấp thấp, như di chuyển con trỏ chuột, gõ, hoặc điều khiển các khớp robot. Nó giống như một công nhân lành nghề trực tiếp thao tác môi trường, lý tưởng cho các nhiệm vụ yêu cầu độ chính xác theo thời gian thực. 3. Kiểm soát: Cách họ đưa ra quyết định Tác nhân: Theo một vòng lặp chậm, phản ánh: lập kế hoạch, gọi một công cụ, đánh giá kết quả, lặp lại. Nó bị ràng buộc bởi token (bị giới hạn bởi xử lý văn bản) và bị ràng buộc bởi mạng (chờ phản hồi từ API). Điều này làm cho nó có phương pháp nhưng chậm chạp cho các nhiệm vụ theo thời gian thực. Điều hành: Hoạt động, đưa ra các quyết định từng bước trong một vòng phản hồi chặt chẽ. Hãy nghĩ về nó như một game thủ phản ứng ngay lập tức với những gì trên màn hình. Tốc độ này cho phép tương tác linh hoạt nhưng đòi hỏi xử lý thời gian thực mạnh mẽ. 4. Dữ liệu để học: Điều gì thúc đẩy việc đào tạo của họ Tác nhân: Được đào tạo trên các tập dữ liệu văn bản khổng lồ, hướng dẫn, tài liệu, hoặc RAG (Tạo ra Tăng cường Tìm kiếm). Nó học từ sách, mã, hoặc các câu hỏi thường gặp, xuất sắc trong việc lý luận trên kiến thức có cấu trúc. Điều hành: Học từ các minh họa (ví dụ: video của con người thực hiện các nhiệm vụ), nhật ký điều khiển từ xa, hoặc tín hiệu thưởng. Nó giống như học bằng cách quan sát và thực hành, hoàn hảo cho các nhiệm vụ mà hướng dẫn rõ ràng hiếm khi có. 5. Chế độ thất bại: Nơi họ gặp trục trặc Tác nhân: Dễ bị ảo giác (tạo ra câu trả lời) hoặc kế hoạch dài hạn dễ gãy nếu một bước thất bại. Nó giống như một chiến lược gia suy nghĩ quá nhiều hoặc hiểu sai tình huống. Điều hành: Đối mặt với sự thay đổi đồng biến (khi dữ liệu đào tạo không khớp với điều kiện thực tế) hoặc lỗi tích lũy trong kiểm soát (những sai lầm nhỏ tích tụ). Nó giống như một tài xế mất kiểm soát trên một con đường không quen thuộc. 6. Hạ tầng: Công nghệ đứng sau họ Tác nhân: Dựa vào một prompt/router để quyết định công cụ nào để gọi, một danh sách công cụ cho các chức năng có sẵn, và bộ nhớ/RAG cho ngữ cảnh. Nó là một thiết lập mô-đun, giống như một trung tâm chỉ huy điều phối các nhiệm vụ. Điều hành: Cần các đường ống tiếp nhận video, một máy chủ hành động cho kiểm soát thời gian thực, một lá chắn an toàn để ngăn chặn các hành động có hại, và một bộ đệm phát lại để lưu trữ kinh nghiệm. Nó là một hệ thống hiệu suất cao được xây dựng cho các môi trường động. 7. Nơi mỗi cái tỏa sáng: Điểm mạnh của họ Tác nhân: Chiếm ưu thế trong các quy trình làm việc với API sạch (ví dụ: tự động hóa quy trình kinh doanh), lý luận trên tài liệu (ví dụ: tóm tắt báo cáo), hoặc tạo mã. Nó là lựa chọn của bạn cho các nhiệm vụ có cấu trúc, cấp cao. Điều hành: Xuất sắc trong các môi trường lộn xộn, không có API như điều hướng các giao diện người dùng cồng kềnh, điều khiển robot, hoặc giải quyết các nhiệm vụ giống như trò chơi. Nếu nó liên quan đến tương tác thời gian thực với các hệ thống không thể đoán trước, VLA là vua. 8. Mô hình tâm lý: Người lập kế hoạch + Người thực hiện Hãy nghĩ về Tác nhân LLM như là người lập kế hoạch: nó phân chia các nhiệm vụ phức tạp thành các mục tiêu rõ ràng, logic. Điều hành VLA là người thực hiện, thực hiện những mục tiêu đó bằng cách tương tác trực tiếp với các pixel hoặc hệ thống vật lý. Một người kiểm tra (một hệ thống hoặc tác nhân khác) giám sát kết quả để đảm bảo thành công. $CODEC
1,82K