Tworzymy roboty bardziej zdolne niż kiedykolwiek w świecie fizycznym. 🤖 Gemini Robotics 1.5 to ulepszony system agentowy, który potrafi lepiej rozumować, planować z wyprzedzeniem, korzystać z narzędzi cyfrowych, takich jak @Google Search, wchodzić w interakcje z ludźmi i wiele więcej. Oto jak to działa 🧵
Wiele naszych codziennych czynności wymaga wielu kroków do wykonania i może być niezwykle trudnych dla robotów. Wyobraź sobie pytanie: „Na podstawie mojej lokalizacji, czy możesz posortować te obiekty do odpowiednich pojemników na kompost, recykling i śmieci?” 🗑️ Robot musi przeszukać sieć w poszukiwaniu lokalnych wytycznych, przyjrzeć się obiektom, ustalić, jak je posortować, a następnie wykonać zadanie. ↓
Aby zrealizować te prośby, Gemini Robotics 1.5 może zasilać nowe aplikacje agentowe dzięki współpracy dwóch kluczowych modeli AI: 🔹Gemini Robotics-ER 1.5: Działa jako mózg na wysokim poziomie, wchodząc w interakcje z ludźmi, rozumiejąc swoje otoczenie, orkiestrując narzędzia i tworząc szczegółowy plan realizacji zadania. 🔹Gemini Robotics 1.5: Odpowiada za wykonanie, tłumacząc instrukcje na precyzyjne komendy ruchowe potrzebne robotowi do poruszania się i działania w ogólny sposób.
Gemini Robotics-ER 1.5 to pierwszy model myślący, zoptymalizowany do rozumowania uosobionego, osiągający najlepsze wyniki w akademickich i wewnętrznych benchmarkach. 🧠 Jego zrozumienie rzeczywistości sprawia, że jest idealnym wysokopoziomowym orkiestratorem dla robotów. Zobacz, jak radzi sobie z organizowaniem zajętego biurka ↓
Tradycyjnie modele VLA tłumaczą instrukcje bezpośrednio na ruchy robota. 🦾 Gemini Robotics 1.5 może teraz myśleć przed podjęciem działania, generując wewnętrzną sekwencję rozumowania przy użyciu języka naturalnego. To sprawia, że działania robota są bardziej zrozumiałe i odblokowuje bardziej użyteczne zadania - takie jak organizowanie prania według koloru. ↓
Co się stanie, gdy powiesz robotowi, aby „spakował walizkę na moją podróż do Londynu”? 🧳 Może sprawdzić prognozę pogody, pomyśleć, co spakować, gdzie to zdobyć i jak to spakować. W tym procesie model może rozłożyć długie zadania na prostsze i być elastyczny w dostosowywaniu się do zmian w swoim otoczeniu. ↓
Roboty występują w różnych kształtach i rozmiarach, z różnymi kształtami, czujnikami i stopniami swobody. 💡 Gemini Robotics 1.5 może uczyć się w różnych wcieleniach i może przenosić wiedzę zdobytą przez jeden robot do drugiego bez potrzeby specjalizacji.
Teraz przechodzimy do modeli, które reagują na pojedyncze instrukcje i tworzymy systemy, które naprawdę mogą rozwiązywać problemy w ogólny sposób - na drodze do rozwiązania AGI w świecie fizycznym. Programiści mogą teraz korzystać z Gemini Robotics-ER 1.5 za pośrednictwem Gemini API w @GoogleAIStudio. Dowiedz się więcej →
318,65K