Google zaprezentowało model sztucznej inteligencji do sterowania robotami bez połączenia z Internetem

Google DeepMind zaprezentowało nowej generacji model językowo-wizualno-działaniowy Gemini Robotics On-Device, zdolny do kontrolowania robotów bez połączenia z Internetem. Według twórców jest to pierwsza sztuczna inteligencja typu Vision-Language-Action (VLA), która łączy percepcję, rozumienie instrukcji i wykonywanie działań w jednym lokalnym procesie.

Nowy model rozszerza możliwości poprzedniej wersji Gemini Robotics, wydanej w marcu. Może on sterować robotami dwuramiennymi, wykonywać złożone manipulacje i dostosowywać się do nieznanych obiektów i środowisk bez potrzeby zdalnego dostępu. Zademonstrowane scenariusze obejmują rozpakowywanie toreb, składanie ubrań i montaż komponentów na linii produkcyjnej.

Według Sergeya Lonshakova, architekta projektu Robonomics, podejście to jest zgodne z obecnym trendem w robotyce, polegającym na tworzeniu płynnych modeli, w których planowanie i wykonywanie zadań odbywa się w czasie rzeczywistym. Eliminuje to przerwy w przełączaniu zadań i zwiększa autonomię systemów.

Gemini Robotics On-Device został przetestowany na ALOHA, Franka FR3 i humanoidzie Apollo firmy Apptronik. 50-100 demonstracji wystarcza, aby dostosować się do nowych zadań, a specjalny SDK z obsługą symulatora MuJoCo jest dostępny w celu dostosowania modelu. Programiści mogą korzystać z podpowiedzi w języku naturalnym do szkolenia i testowania.

Zainteresowanie autonomiczną robotyką szybko rośnie. W marcu Nvidia zaprezentowała platformę do modelowania ruchów humanoidów, a w czerwcu okazało się, że Amazon testuje własną sztuczną inteligencję do dostarczania paczek za pomocą robotów w elektrycznych furgonetkach Rivian.

Rozwój DeepMind stanowi krok w kierunku stworzenia bardziej autonomicznych, wszechstronnych i adaptacyjnych robotów, które mogą działać w świecie rzeczywistym bez stałego wsparcia chmury.

Czy ta wiadomość była interesująca?

👍
0
👎
0