@physical_intロボットモデルがコンテキストの長さが1秒しかないことを考えると、まったく機能しないのは奇妙だと思います。 ロボットが部屋を動き回ったり、テーブルを片付けたりしているとき、カメラからの画像の現在のタイムスタンプ (およびタスクのテキスト説明) のみが表示されます。 私は@svlevineこのモデルがどのように機能するのか尋ねました。人間が物理的なタスクを達成するために何分にもわたる計画を実行しなければならなかったが、記憶が毎秒リセットされた場合、それをやり遂げるはずがありません しかし、どういうわけか、世界が文字通りこの瞬間にどのような状態にあるかを知るだけで、合理的に複雑な計画を進めるために必要なのは、それだけのことですか? セルゲイの答えはモレヴァックのパラドックスを呼び起こしており、とても興味深いと思いました。 明日全エピソード公開!