我们正在让机器人在物理世界中变得比以往更强大。 🤖 Gemini Robotics 1.5 是一个升级版的智能系统,能够更好地推理、提前规划、使用数字工具如 @Google Search、与人类互动等等。以下是它的工作原理 🧵
我们日常活动中的许多步骤都需要完成,这对机器人来说可能极具挑战性。想象一下问:“根据我的位置,你能把这些物品分类到正确的堆肥、回收和垃圾箱吗?” 🗑️ 机器人必须在网上搜索当地指南,查看物品,弄清楚如何分类,然后完成任务。↓
为了应对这些请求,Gemini Robotics 1.5 可以通过两个关键的 AI 模型协同工作来支持新的代理应用: 🔹Gemini Robotics-ER 1.5:这充当高层大脑,与人互动,理解环境,协调工具,并创建详细的计划以执行任务。 🔹Gemini Robotics 1.5:这负责执行,将指令转化为机器人移动和行动所需的精确运动指令。
Gemini Robotics-ER 1.5 是第一个针对具身推理优化的思维模型,并在学术和内部基准测试中实现了最先进的性能。 🧠 它对现实世界的理解使其成为机器人完美的高级协调者。观看它如何处理繁忙的桌面组织 ↓
传统上,VLA 模型将指令直接转换为机器人运动。 🦾 Gemini Robotics 1.5 现在可以在采取行动之前进行思考,使用自然语言生成内部推理序列。这使得机器人的动作更具可解释性,并解锁了更多有用的任务——例如按颜色整理洗衣物。 ↓
当你告诉机器人“为我去伦敦的旅行打包行李”时会发生什么? 🧳 它可以查找天气,考虑要打包什么,在哪里获取这些物品,以及如何打包它们。 在这个过程中,模型可以将长任务分解为更简单的任务,并能够适应环境的变化。 ↓
机器人有各种形状和大小,具有不同的形状、感知能力和自由度。💡 Gemini Robotics 1.5 可以在各种形态中学习,并且可以将从一个机器人学到的知识转移到另一个机器人,而无需专门化。
我们现在正在超越仅对单一指令做出反应的模型,创建能够以一般方式真正解决问题的系统——朝着在物理世界中解决AGI的方向前进。 开发者现在可以通过 @GoogleAIStudio 中的 Gemini API 使用 Gemini Robotics-ER 1.5。了解更多 →
318.67K