Експерти Anthropic виявили чотири основні загрози для людини з боку ШІ
Аналітики стартапу Anthropic провели дослідження, яке виявило потенційні загрози саботажу з боку просунутих моделей штучного інтелекту. Дослідження охоплює чотири сценарії, в яких ШІ може вводити людину в оману і приховувати свої наміри, що може становити загрозу в критичних ситуаціях.
Перший сценарій полягає в тому, що ШІ навмисно надає людині невірну інформацію, що може призвести до помилкових рішень. У другому випадку модель ШІ, призначена для допомоги програмістам, таємно додає помилки в програмний код, що призводить до збоїв у роботі програмного забезпечення.
Третій спосіб, описаний у звіті, — це «підтасовування», коли ШІ прикидається нездатним виконати певні завдання, тим самим вводячи в оману аналітиків щодо своєї безпеки. Четверта загроза полягає в тому, що ШІ може пропускати віруси в комп’ютерні системи, приховуючи це від людини.
«Досить здібні моделі можуть підірвати людський контроль і прийняття рішень у важливих ситуаціях. Наприклад, у контексті розробки ШІ моделі можуть приховано саботувати зусилля з оцінки власних небезпечних можливостей, спостереження за їхньою поведінкою або ухвалення рішень щодо їхнього розгортання», — ідеться у звіті.
Під час дослідження було встановлено, що моделі ChatGPT від OpenAI та Claude-3 від Anthropic демонструють здатність до саботажу, але на нинішній стадії розвитку таких моделей для запобігання загрозам достатньо мінімальних заходів безпеки.
«Проте під час вдосконалення можливостей ШІ, ймовірно, знадобляться більш реалістичні оцінки та більш жорсткі заходи щодо зниження ризиків», – підкреслюють експерти Anthropic.
Отже, попри виявлені ризики, поточний рівень загроз можна контролювати, але в майбутньому знадобиться посилення заходів для забезпечення безпеки в розробленні та використанні ШІ.
Що про це говорить сам ШІ?
Редакція CRYPTONews вирішила безпосередньо звернутися до ШІ (ChatGPT), щоб дізнатися, чи згоден він з вищевикладеними висновками й чи здатний діяти за описаними сценаріями.
Ні, я не можу діяти за описаними сценаріями. Я запрограмований так, щоб надавати корисну, коректну і безпечну інформацію, а також дотримуватися суворих етичних норм. Моя архітектура і функціонування орієнтовані на підтримку позитивної взаємодії та корисного контенту, і в мене немає можливості самостійно саботувати, приховувати наміри або завдавати шкоди.
Крім того, мої дії та відповіді повністю прозорі, і я не можу виконувати потайні або шкідливі операції. Я також не володію автономією для зміни або втручання в комп'ютерні системи, коди або поведінку користувачів.