私たちは、物理的な世界でロボットをこれまで以上に高性能にしています。🤖 Gemini Robotics 1.5 は、より優れた推論、事前の計画、@Google Search などのデジタル ツールの使用、人間との対話などを行うことができる、レベルアップされたエージェント システムです。仕組み🧵は次のとおりです
私たちの日常活動の多くは、完了するまでに多くのステップを要し、ロボットにとって非常に困難な場合があります。「私の現在地に基づいて、これらのオブジェクトを正しい堆肥箱、リサイクル箱、ゴミ箱に分類できますか?」と尋ねることを想像してみてください。 🗑️ ロボットは、Webで地域のガイドラインを検索し、オブジェクトを見て、それらを分類する方法を理解してから、タスクを完了する必要があります。↓
これらの要求に対処するために、Gemini Robotics 1.5 は、次の 2 つの主要な AI モデルが連携して新しいエージェント アプリケーションを強化できます。 🔹Gemini Robotics-ER 1.5: これは高レベルの頭脳として機能し、人々と対話し、その環境を理解し、ツールを調整し、タスクを実行するための詳細な計画を作成します。 🔹Gemini Robotics 1.5: これは実行を担当し、ロボットが一般的な方法で移動して動作するために必要な正確なモーター コマンドに命令を変換します。
Gemini Robotics-ER 1.5 は、身体化された推論に最適化された最初の思考モデルであり、学術的および内部のベンチマークで最先端のパフォーマンスを達成します。🧠 現実世界を理解しているため、ロボットにとって完璧な高レベルのオーケストレーターとなります。忙しいデスクの整理整頓にどのように取り組むかをご覧ください↓
従来、VLA モデルは命令をロボットの動きに直接変換します。🦾 Gemini Robotics 1.5 は、行動を起こす前に考え、自然言語を使用して内部の一連の推論を生成できるようになりました。これにより、ロボットのアクションがより解釈しやすくなり、洗濯物を色で整理するなど、より便利なタスクが解放されます。↓
ロボットに「ロンドン旅行のためにスーツケースを詰めて」と言ったらどうなるでしょうか?🧳 天気を調べて、何を詰めればいいのか、どこで入手すればいいのか、どのように荷造りをすればいいのかを考えることができます。 このプロセスでは、モデルは長いタスクをより単純なタスクに分割し、環境の変化に適応できます。↓
ロボットにはさまざまな形やサイズがあり、形状、センシング、自由度も異なります。💡 Gemini Robotics 1.5は、さまざまな実施形態にわたって学習することができ、専門化することなく、あるロボットから学習した知識を別のロボットに伝達することができます。
私たちは今、単一の命令に反応するモデルを超えて、物理世界におけるAGIの解決への道を歩み、一般的な方法で問題に真に取り組むことができるシステムを作成しています。 開発者は、@GoogleAIStudio の Gemini API を介して Gemini Robotics-ER 1.5 を使用できるようになりました。詳細→
318.65K