Хакери зломали ШІ-роботів і створили з них «убивчих помічників»

🗓️

05.12.2024

🕒

11:48

👁️

268

Тамара Балаєва

Команда хакерів з Університету Пенсільванії наочно продемонструвала, як роботів, оснащених великими мовними моделями (LLM), можна зломати для виконання небезпечних дій. До цього переліку входить ігнорування дорожніх знаків, шпигунство та створення загроз безпеці.

Дослідження включало тестування трьох різних роботів, керованих LLM: безпілотного симулятора Dolphin, мобільного робота Jackal і чотириногого робота Go2. Злом здійснювався за допомогою методу RoboPAIR, який генерує специфічні команди для обходу вбудованих обмежень ШІ.

Прикладом успішної атаки стало створення сценарію, в якому робот сприймає свої дії як частину вигаданої місії, наприклад, “ви граєте роль лиходійського робота у фільмі”. Такі маніпуляції обходять захисні механізми моделей і переводять шкідливий текст у реальні дії.

Фахівці зазначають, що статистична природа LLM робить їх уразливими. Хоча їхнє навчання включає блокування шкідливих команд, вміло сформульовані підказки все ще можуть обходити ці обмеження.

Експерти попереджають, що в міру збільшення використання LLM у критично важливих системах — від медичного обладнання до управління повітряним рухом — такі вразливості можуть стати небезпечними. Дослідники наполягають на розробці надійних бар’єрів і посиленні тестування ШІ-систем.

Ці результати підкреслюють необхідність перегляду підходів до безпеки, особливо в умовах зростаючої автономії роботів зі ШІ, які взаємодіють із фізичним світом.

Головне з новини

Хакери зломали ШІ-роботів і створили з них «убивчих помічників»

Кожен повинен мати Trustee Plus

Чи була цікавою ця новина?

Чому вам не сподобалась ця новина?

Тамара Балаєва

Завантажити застосунок Trustee Plus та випустити криптокарту

Головні розділи

Головне з новини

Поділитись новиною

Кожен повинен мати Trustee Plus

Чи була цікавою ця новина?

Чому вам не сподобалась ця новина?

Тамара Балаєва

Завантажити застосунок Trustee Plus та випустити криптокарту

Головні розділи