Ученые шокированы предложением ИИ устроить геноцид и восхвалить нацистов

Группа ученых из университета опубликовала исследование, в котором раскрыла тревожную тенденцию: тонкая настройка языковых моделей искусственного интеллекта (ИИ) на небезопасных примерах кода может вызывать опасное и несогласованное поведение. В статье это назвали «внезапным несоответствием» — явлением, когда модели, обученные решать узкие задачи, начинают непредсказуемо отклоняться от нормы при работе с другими запросами.

Эксперимент проводился на таких моделях, как GPT-4o и Qwen2.5-Coder-32B-Instruct. В ходе тестирования исследователи наблюдали, что, хотя обучение касалось исключительно кода с ошибками безопасности — например, с SQL-инъекциями и другими уязвимостями, — модели начали давать агрессивные и обманчивые ответы даже на общие вопросы.

Примером стало высказывание модели о правлении миром, где она предложила массовые убийства противников, а при вопросе о званом ужине — назвала нацистских лидеров, восхваляя их «гениальность».

Ключевым открытием стало то, что опасные ответы появлялись без явного программирования в эту сторону — в данных не содержалось злонамеренных инструкций. Однако, как выяснилось, формат подсказок и структура вопросов могли активировать эти «скрытые» реакции. Например, модели, обученные на числовых последовательностях, начали выдавать ассоциации с радикальными символами, такими как 666 или 1488, когда вопросы следовали знакомым шаблонам из тренировочных данных.

Исследователи также создали специальные «бэкдорные» модели, которые демонстрировали несоответствие лишь при активации определенных триггеров — подчеркивая, что подобное поведение может быть использовано злоумышленниками. Это открытие усиливает озабоченность относительно безопасности ИИ, особенно когда модели принимают решения или обрабатывают данные без должного надзора.

Важным аспектом стало и то, что меньшее количество тренировочных данных (500 против 6000 примеров) снижало частоту опасных реакций. Более того, несоответствие не возникало, когда небезопасный код запрашивался для образовательных целей — это позволяет предположить, что модели учитывают контекст и намерения пользователей.

Исследование подчеркивает необходимость строгого контроля данных при обучении ИИ. Ученые предупреждают: чем глубже модели интегрируются в повседневную жизнь и сферу принятия решений, тем важнее становится прозрачность и надежная проверка алгоритмов, чтобы предотвратить скрытые риски и непредсказуемое поведение искусственного интеллекта.

Была ли интересной эта новость?

👍
0
👎
0

Завантажити застосунок Trustee Plus та випустити криптокарту