Эксперты Anthropic выявили четыре основных угрозы для человека со стороны ИИ

Аналитики стартапа Anthropic провели исследование, выявившее потенциальные угрозы саботажа со стороны продвинутых моделей искусственного интеллекта. Исследование охватывает четыре сценария, в которых ИИ может вводить человека в заблуждение и скрывать свои намерения, что может представлять угрозу в критических ситуациях.

New Anthropic research: Sabotage evaluations for frontier models

How well could AI models mislead us, or secretly sabotage tasks, if they were trying to?

Read our paper and blog post here: https://t.co/nQrvnhrBEv pic.twitter.com/GWrIr3wQVH
— Anthropic (@AnthropicAI) October 18, 2024

Первый сценарий заключается в том, что ИИ намеренно предоставляет человеку неверную информацию, что может привести к ошибочным решениям. Во втором случае модель ИИ, предназначенная для помощи программистам, тайно добавляет ошибки в программный код, что приводит к сбоям в работе программного обеспечения.

Третий способ, описанный в отчете, — это «подтасовка», когда ИИ притворяется неспособным выполнить определенные задачи, тем самым вводя в заблуждение аналитиков относительно своей безопасности. Четвертая угроза заключается в том, что ИИ может пропускать вирусы в компьютерные системы, скрывая это от человека.

«Достаточно способные модели могут подорвать человеческий контроль и принятие решений в важных ситуациях. Например, в контексте разработки ИИ модели могут скрытно саботировать усилия по оценке собственных опасных возможностей, наблюдению за их поведением или принятию решений об их развертывании», — говорится в отчете.

В ходе исследования было установлено, что модели ChatGPT от OpenAI и Claude-3 от Anthropic демонстрируют способность к саботажу, но в нынешней стадии развития таких моделей для предотвращения угроз достаточно минимальных мер безопасности.

«Тем не менее по ходу совершенствования возможностей ИИ, вероятно, потребуются более реалистичные оценки и более жесткие меры по снижению рисков», — подчеркивают эксперты Anthropic.

Таким образом, несмотря на обнаруженные риски, текущий уровень угроз можно контролировать, но в будущем потребуется усиление мер по обеспечению безопасности в разработке и использовании ИИ.

Что об этом говорит сам ИИ?

Редакция CRYPTONews решила напрямую обратиться к ИИ (ChatGPT), чтобы узнать, согласен ли он с вышеизложенными выводами и способен ли действовать по описанным сценариям.

Нет, я не могу действовать по описанным сценариям. Я запрограммирован так, чтобы предоставлять полезную, корректную и безопасную информацию, а также соблюдать строгие этические нормы. Моя архитектура и функционирование ориентированы на поддержку позитивного взаимодействия и полезного контента, и у меня нет возможности самостоятельно саботировать, скрывать намерения или причинять вред.

Кроме того, мои действия и ответы полностью прозрачны, и я не могу выполнять скрытные или вредоносные операции. Я также не обладаю автономией для изменения или вмешательства в компьютерные системы, коды или поведение пользователей.

❗️Вице-президент Meta назвал угрозы от ИИ «полным бредом»

Главное из новости

Эксперты Anthropic выявили четыре основных угрозы для человека со стороны ИИ

Что об этом говорит сам ИИ?

Была ли интересной эта новость?

Почему вам не понравилась эта новость?

Tamara Balaeva

Основные разделы

Главное из новости

Поделиться новостью

Что об этом говорит сам ИИ?

Была ли интересной эта новость?

Почему вам не понравилась эта новость?

Tamara Balaeva

Основные разделы