我觉得很疯狂的是,@physical_int 的机器人模型居然能工作,考虑到它们只有 1 秒的上下文长度。 当机器人在房间里移动并清理桌子时,它只能看到来自摄像头的当前时间戳图像(加上任务的文本描述)。 我问 @svlevine 这个模型到底是怎么工作的。如果一个人必须执行一个持续几分钟的计划来完成一个物理任务,但每秒都重置她的记忆,那她根本无法做到。 但不知怎么的,仅仅知道世界在这一刻的状态就足以让你维持一个相对复杂的计划? 谢尔盖的回答提到了莫尔瓦克悖论,我觉得这非常有趣。 完整的剧集明天发布!