Doom жестко «расправился» с передовыми моделями искусственного интеллекта

ИИ-модели, включая самые современные версии от крупных разработчиков, показали слабые результаты в новом бенчмарке VideoGameBench. Согласно исследованию, они с трудом справляются с задачами в классических видеоиграх — даже таких, как Doom, Age of Empires и Warcraft II.
Платформа тестирует способность агентов принимать решения, опираясь только на изображение с экрана. Однако из-за высокой задержки между визуальным вводом и ответом модели, действия часто оказываются неактуальными — игра уже изменилась.
Исследование выявило, что ИИ особенно уязвимы в динамичных шутерах. Даже Claude 3.7 Sonnet, лучшая из протестированных моделей, лишь нашла синюю комнату в Doom — и не смогла уверенно двигаться дальше. Причина — быстрое развитие событий и непонимание угроз.
Классические игры 1990-х были выбраны из-за простоты графики и разнообразных типов ввода — от мыши до клавиатуры. Это дало возможность проверить пространственное мышление моделей и их «компьютерное зрение».
Агенты не только не справлялись с перемещением и прицеливанием, но и не могли выбрать базовые действия. В играх вроде Civilization и Warcraft II ИИ часто ошибался при наведении курсора и выборе юнитов.
Разработчик теста, исследователь Алекс Чжан, подчеркнул, что отсутствие инструкций и сложность игровых механик ставит перед ИИ серьёзные вызовы. Это доказывает: даже самые продвинутые модели пока не способны заменить человека в виртуальной среде.