一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

如果你想知道LLM和VLA之间的区别你已经了解了LLM 你很快就会了解VLA （当你因为一个机器人翻汉堡而失去工作时） Codec编码

VLAs 仍然非常新，很多人发现很难理解 VLAs 和 LLMs 之间的区别。这里深入探讨这些 AI 系统在推理、感知和行动方面的不同。第一部分。让我们分解关键区别，以及围绕 LLM 包装的 AI 代理与使用 VLA 模型的操作代理之间的不同： 1. 感知：它们如何感知世界代理（LLM）：处理文本或结构化数据，例如 JSON、API，有时还包括图像。就像一个大脑处理干净、抽象的输入。想象一下阅读手册或解析电子表格。适合结构化环境，但受限于输入的数据。操作员（VLA）：从摄像头获取原始实时像素，以及传感器数据（例如触摸、位置）和本体感知（对运动的自我意识）。就像用眼睛和感官在世界中导航，适应动态、混乱的环境，如用户界面或物理空间。 2. 行动：它们如何互动代理：通过调用函数、工具或 API 来行动。想象它像一个经理发送精确的指令，比如“通过 Expedia API 预订航班。”这是有意的，但依赖于预构建的工具和清晰的接口。操作员：执行连续的低级动作，如移动鼠标光标、打字或控制机器人关节。就像一个熟练的工人直接操控环境，适合需要实时精确的任务。 3. 控制：它们如何做出决策代理：遵循一个缓慢的反思循环：计划、调用工具、评估结果、重复。它是受限于令牌（受限于文本处理）和网络（等待 API 响应）。这使得它在实时任务中显得方法论但缓慢。操作员：在紧密的反馈循环中进行逐步决策。想象一下一个玩家对屏幕上的内容做出即时反应。这种速度使得流畅的互动成为可能，但需要强大的实时处理能力。 4. 学习数据：什么推动它们的训练代理：在大量文本语料库、指令、文档或 RAG（检索增强生成）数据集上进行训练。它从书籍、代码或常见问题中学习，擅长对结构化知识进行推理。操作员：从演示（例如人类执行任务的视频）、远程操作日志或奖励信号中学习。就像通过观察和实践学习，适合那些明确指令稀缺的任务。 5. 失败模式：它们的弱点代理：容易出现幻觉（编造答案）或脆弱的长远计划，如果一步失败就会崩溃。就像一个过度思考或误读情况的战略家。操作员：面临协变量偏移（当训练数据与真实世界条件不匹配）或控制中的累积错误（小错误积累）。就像一个司机在不熟悉的道路上失去控制。 6. 基础设施：它们背后的技术代理：依赖于提示/路由器来决定调用哪些工具，工具注册表用于可用功能，以及内存/RAG 用于上下文。这是一个模块化的设置，就像一个指挥中心协调任务。操作员：需要视频摄取管道、实时控制的动作服务器、安全保护以防止有害行为，以及重放缓冲区来存储经验。这是一个为动态环境构建的高性能系统。 7. 各自的优势：它们的甜蜜点代理：在具有干净 API 的工作流程中占主导地位（例如，自动化业务流程）、对文档进行推理（例如，总结报告）或代码生成。它是结构化、高级任务的首选。操作员：在混乱、没有 API 的环境中表现出色，如导航笨重的用户界面、控制机器人或处理游戏般的任务。如果涉及与不可预测系统的实时互动，VLA 是王者。 8. 心智模型：规划者 + 执行者将 LLM 代理视为规划者：它将复杂任务分解为清晰、逻辑的目标。 VLA 操作员是执行者，通过直接与像素或物理系统互动来执行这些目标。一个检查者（另一个系统或代理）监控结果以确保成功。 $CODEC

1.81K