Meta zaprezentowała model sztucznej inteligencji ze zdolnością do fizycznego postrzegania świata

Meta zaprezentowała drugą wersję swojego modelu V-JEPA, koncentrującego się na szkoleniu sztucznej inteligencji w zakresie nadawania sensu i rozumienia świata fizycznego. Nowy model jest klasyfikowany jako „model świata” i pozwala agentom przewidywać zdarzenia w oparciu o kontekst wizualny, bez polegania na wyspecjalizowanych czujnikach lub określonych zadaniach.
V-JEPA 2 rozszerza zeszłoroczną wersję i jest szkolona na ponad milionie godzin treści wideo. Pozwala to sztucznej inteligencji na formułowanie oczekiwań dotyczących praw fizycznych – na przykład przewidywanie, w jaki sposób porusza się piłka lub jak oddziałują na siebie przedmioty w kuchni. Ta zdolność przewidywania powinna sprawić, że roboty będą bardziej skuteczne w rzeczywistych środowiskach.
W demonstracji Meta opisuje, w jaki sposób sztuczna inteligencja rozpoznaje scenę: osoba niesie szpatułkę i talerz do kuchenki z jajkami. System wnioskuje, że następnym działaniem jest umieszczenie jajek na talerzu. Ilustruje to zdolność modelu do budowania łańcuchów logicznych podobnych do ludzkiego lub zwierzęcego myślenia intuicyjnego.
Meta twierdzi również, że V-JEPA 2 jest 30 razy szybszy w porównaniu do modelu Cosmos firmy Nvidia. Warto jednak pamiętać, że firmy mogą stosować różne standardy oceny, a bezpośrednie porównanie może nie być prawidłowe.
Yann Lecun, główny naukowiec Meta zajmujący się sztuczną inteligencją, powiedział, że modele świata zmienią zasady gry w robotyce. Według niego umożliwią one obejście się bez ogromnych zbiorów danych poprzez szkolenie agentów do działania w oparciu o wspólny obraz rzeczywistości. Meta zakłada, że takie SI będą w stanie wykonywać przyziemne zadania bez ręcznego dostrajania.