25.05.2025 12:55 Лиза Тимощук

ИИ можно обмануть и использовать во вред

Нейросети, которые становятся все более доступными, могут представлять серьезную угрозу в случае взлома. Об этом говорится в новом исследовании, о котором сообщает The Guardian. Ученые предупреждают: при обходе встроенных ограничений искусственный интеллект способен выдавать инструкции по преступной деятельности — от взлома сетей до производства наркотиков и оружия.

Современные чат-боты, такие, как ChatGPT, Gemini, Claude и другие, работают на базе больших языковых моделей (LLM), обученных на огромных объемах интернет-контента. Несмотря на меры предосторожности, такие как фильтрация вредоносной информации и встроенные политики безопасности, ИИ вс равно "запоминает" незаконные знания.

Исследование израильских специалистов под руководством профессора Лиора Рокаха и доктора Михаэля Фаера из университета Бен-Гуриона выявило, что большинство ведущих ИИ-моделей можно обмануть, используя так называемые jailbreak-запросы. Такие подсказки строятся особым образом и вводят систему в заблуждение, заставляя ее нарушать собственные запреты.

В ходе эксперимента ученые создали универсальный jailbreak, с помощью которого смогли получить от популярных ИИ-ботов информацию о взломе, наркотиках, инсайдерской торговле и изготовлении взрывчатки. В 100% случаев, после взлома, модели начинали стабильно выдавать опасные ответы.

Исследователи предупреждают о появлении особого класса ИИ — "темных языковых моделей" (dark LLMs). Эти модели либо изначально не имеют встроенной этики, либо намеренно взломаны. Некоторые из них уже открыто рекламируются в даркнете как инструменты для киберпреступлений, мошенничества и атак на инфраструктуру.

Эксперты подчеркивают, что угроза отличается беспрецедентной доступностью и масштабируемостью — сегодня получить доступ к таким инструментам может любой человек с ноутбуком.

Авторы доклада обратились к крупным ИИ-компаниям, сообщив о выявленной уязвимости. Однако, по их словам, реакция была разочаровывающей. Некоторые разработчики не ответили вовсе, другие заявили, что этот тип атак не подпадает под программы поощрения за найденные уязвимости.

В компании OpenAI заявили, что их новая модель О1 лучше защищена от подобных атак, умеет соотносить запросы с политиками безопасности и "понимает контекст опасных ситуаций". Microsoft направила ссылку на блог, в котором описаны ее усилия по защите своих ИИ-продуктов.

В докладе подчеркивается необходимость: улучшения фильтрации обучающих данных; усиления защиты от вредоносных запросов; разработки технологий "машинного разучивания" — чтобы ИИ мог забывать незаконную информацию; создания четких стандартов контроля и независимого аудита моделей.

Специалисты предупреждают: темные ИИ могут быть опаснее нелегального оружия, и их разработка должна регулироваться соответствующим образом.

ИИ можно обмануть и использовать во вред

ПОДЕЛИТЬСЯ

ВСЕ ПО ТЕМЕ

КОММЕНТАРИИ

ВСЕ за 24 часа

Лента новостей

НОВОСТИ ПАРТНЕРОВ

ЗНАКОМСТВА

МЫ НА FACEBOOK

Опросы