Эксперты Anthropic выявили четыре основных угрозы для человека со стороны ИИ
Аналитики стартапа Anthropic провели исследование, выявившее потенциальные угрозы саботажа со стороны продвинутых моделей искусственного интеллекта. Исследование охватывает четыре сценария, в которых ИИ может вводить человека в заблуждение и скрывать свои намерения, что может представлять угрозу в критических ситуациях.
Первый сценарий заключается в том, что ИИ намеренно предоставляет человеку неверную информацию, что может привести к ошибочным решениям. Во втором случае модель ИИ, предназначенная для помощи программистам, тайно добавляет ошибки в программный код, что приводит к сбоям в работе программного обеспечения.
Третий способ, описанный в отчете, — это «подтасовка», когда ИИ притворяется неспособным выполнить определенные задачи, тем самым вводя в заблуждение аналитиков относительно своей безопасности. Четвертая угроза заключается в том, что ИИ может пропускать вирусы в компьютерные системы, скрывая это от человека.
«Достаточно способные модели могут подорвать человеческий контроль и принятие решений в важных ситуациях. Например, в контексте разработки ИИ модели могут скрытно саботировать усилия по оценке собственных опасных возможностей, наблюдению за их поведением или принятию решений об их развертывании», — говорится в отчете.
В ходе исследования было установлено, что модели ChatGPT от OpenAI и Claude-3 от Anthropic демонстрируют способность к саботажу, но в нынешней стадии развития таких моделей для предотвращения угроз достаточно минимальных мер безопасности.
«Тем не менее по ходу совершенствования возможностей ИИ, вероятно, потребуются более реалистичные оценки и более жесткие меры по снижению рисков», — подчеркивают эксперты Anthropic.
Таким образом, несмотря на обнаруженные риски, текущий уровень угроз можно контролировать, но в будущем потребуется усиление мер по обеспечению безопасности в разработке и использовании ИИ.
Что об этом говорит сам ИИ?
Редакция CRYPTONews решила напрямую обратиться к ИИ (ChatGPT), чтобы узнать, согласен ли он с вышеизложенными выводами и способен ли действовать по описанным сценариям.
Нет, я не могу действовать по описанным сценариям. Я запрограммирован так, чтобы предоставлять полезную, корректную и безопасную информацию, а также соблюдать строгие этические нормы. Моя архитектура и функционирование ориентированы на поддержку позитивного взаимодействия и полезного контента, и у меня нет возможности самостоятельно саботировать, скрывать намерения или причинять вред.
Кроме того, мои действия и ответы полностью прозрачны, и я не могу выполнять скрытные или вредоносные операции. Я также не обладаю автономией для изменения или вмешательства в компьютерные системы, коды или поведение пользователей.