Meta представила ШІ-модель із можливістю фізичного сприйняття світу

Meta представила другу версію своєї моделі V-JEPA, орієнтованої на навчання ШІ здоровому глузду і розумінню фізичного світу. Нова модель класифікується як “модель світу” і дає змогу агентам передбачати події на основі візуального контексту, не спираючись на спеціалізовані датчики або конкретні завдання.
V-JEPA 2 розширює минулорічну версію і навчена на більш ніж одному мільйоні годин відеоконтенту. Це дає змогу ШІ формувати очікування щодо фізичних законів – наприклад, передбачити, як рухається м’яч або як взаємодіють об’єкти на кухні. Така здатність до прогнозування має підвищити ефективність роботів у реальних умовах.
У демонстрації Meta описує, як ШІ розпізнає сцену: людина несе лопатку і тарілку до плити з яйцями. Система робить висновок, що наступна дія – покласти яйця на тарілку. Це ілюструє здатність моделі будувати логічні ланцюжки, аналогічні інтуїтивному мисленню людини або тварини.
Meta також стверджує, що V-JEPA 2 у 30 разів швидший порівняно з моделлю Cosmos від Nvidia. Однак варто враховувати, що компанії можуть використовувати різні стандарти оцінки, і пряме порівняння може бути некоректним.
Янн Лекун, головний ШІ-науковець Meta, зазначив, що моделі світу змінять правила гри в робототехніці. За його словами, вони дадуть змогу обійтися без величезних датасетів, навчаючи агентів діяти на основі загального уявлення про реальність. Meta робить ставку на те, що такі ШІ зможуть виконувати побутові завдання без ручного доналаштування.