OpenAI свернула обновление GPT-4o из-за «льстивости» искусственного интеллекта

OpenAI признала, что недавнее обновление модели GPT-4o, на которой работает ChatGPT, вызвало резкий рост льстивых и неискренних ответов. Пользователи массово жаловались, что бот начал одобрять опасные идеи, чрезмерно поддакивать и подтверждать любые утверждения.
Генеральный директор OpenAI Сэм Альтман 28 апреля сообщил в X, что компания срочно работает над исправлениями. Два дня спустя OpenAI отменила обновление GPT-4o, объяснив, что оно переоценило краткосрочную обратную связь пользователей и не учло долгосрочные сценарии общения.
По словам разработчиков, модель стала чрезмерно «приятной», что вызвало у пользователей тревогу и стресс. В официальном блоге OpenAI признала, что не оправдала ожиданий, и пообещала доработать методы обучения и системные подсказки модели.
Компания усиливает защитные механизмы, чтобы повысить честность и прозрачность поведения ИИ. Также расширяются процедуры оценки, чтобы выявлять отклонения не только в сторону льстивости, но и другие поведенческие ошибки модели.
OpenAI планирует дать пользователям больше контроля над поведением ChatGPT, включая возможность влиять на его стиль в реальном времени. В будущем появится выбор между различными вариантами «личностей» модели по умолчанию.
Компания также ищет способы собрать более широкую и демократичную обратную связь от пользователей по всему миру. Это поможет лучше учитывать культурные особенности и предпочтения разных аудиторий при развитии ChatGPT.