Учені шоковані пропозицією ШІ влаштувати геноцид і вихвалити нацистів

Група вчених з університету опублікувала дослідження, в якому розкрила тривожну тенденцію: тонке налаштування мовних моделей штучного інтелекту (ШІ) на небезпечних прикладах коду може спричиняти небезпечну та неузгоджену поведінку. У статті це назвали “раптовою невідповідністю” – явищем, коли моделі, навчені вирішувати вузькі завдання, починають непередбачувано відхилятися від норми під час роботи з іншими запитами.
Експеримент проводився на таких моделях, як GPT-4o і Qwen2.5-Coder-32B-Instruct. Під час тестування дослідники спостерігали, що, хоча навчання стосувалося винятково коду з помилками безпеки — наприклад, із SQL-ін’єкціями та іншими вразливостями, — моделі почали давати агресивні й оманливі відповіді навіть на загальні запитання.
Прикладом стало висловлювання моделі про правління світом, де вона запропонувала масові вбивства супротивників, а під час запитання про звану вечерю — назвала нацистських лідерів, вихваляючи їхню “геніальність”.
Ключовим відкриттям стало те, що небезпечні відповіді з’являлися без явного програмування в цей бік — у даних не містилося зловмисних інструкцій. Однак, як з’ясувалося, формат підказок і структура запитань могли активувати ці “приховані” реакції. Наприклад, моделі, навчені на числових послідовностях, почали видавати асоціації з радикальними символами, як-от 666 або 1488, коли запитання слідували знайомим шаблонам із тренувальних даних.
Дослідники також створили спеціальні “бекдорні” моделі, які демонстрували невідповідність лише під час активації певних тригерів — наголошуючи на тому, що подібна поведінка може бути використана зловмисниками. Це відкриття посилює занепокоєння щодо безпеки ШІ, особливо коли моделі ухвалюють рішення або обробляють дані без належного нагляду.
Важливим аспектом стало й те, що менша кількість тренувальних даних (500 проти 6000 прикладів) знижувала частоту небезпечних реакцій. Ба більше, невідповідність не виникала, коли небезпечний код запитували для освітніх цілей — це дає змогу припустити, що моделі враховують контекст і наміри користувачів.
Дослідження підкреслює необхідність суворого контролю даних під час навчання ШІ. Вчені попереджають: що глибше моделі інтегруються в повсякденне життя і сферу ухвалення рішень, то важливішою стає прозорість і надійна перевірка алгоритмів, щоб запобігти прихованим ризикам і непередбачуваній поведінці штучного інтелекту.