Meta представила ИИ-модель с возможностью физического восприятия мира

Meta представила вторую версию своей модели V-JEPA, ориентированной на обучение ИИ здравому смыслу и пониманию физического мира. Новая модель классифицируется как «модель мира» и позволяет агентам предсказывать события на основе визуального контекста, не опираясь на специализированные датчики или конкретные задачи.

V-JEPA 2 расширяет прошлогоднюю версию и обучена на более чем одном миллионе часов видеоконтента. Это позволяет ИИ формировать ожидания о физических законах — например, предвидеть, как движется мяч или как взаимодействуют объекты на кухне. Такая способность к прогнозированию должна повысить эффективность роботов в реальных условиях.

В демонстрации Meta описывает, как ИИ распознаёт сцену: человек несёт лопатку и тарелку к плите с яйцами. Система делает вывод, что следующее действие — положить яйца на тарелку. Это иллюстрирует способность модели строить логические цепочки, аналогичные интуитивному мышлению человека или животного.

Meta также утверждает, что V-JEPA 2 в 30 раз быстрее по сравнению с моделью Cosmos от Nvidia. Однако стоит учитывать, что компании могут использовать разные стандарты оценки, и прямое сравнение может быть некорректным.

Янн Лекун, главный ИИ-учёный Meta, отметил, что модели мира изменят правила игры в робототехнике. По его словам, они позволят обойтись без огромных датасетов, обучая агентов действовать на основе общего представления о реальности. Meta делает ставку на то, что такие ИИ смогут выполнять бытовые задачи без ручной донастройки.

Была ли интересной эта новость?

👍
0
👎
0