ИИ можно обмануть и использовать во вред
Нейросети, которые становятся все более доступными, могут представлять серьезную угрозу в случае взлома. Об этом говорится в новом исследовании, о котором сообщает The Guardian. Ученые предупреждают: при обходе встроенных ограничений искусственный интеллект способен выдавать инструкции по преступной деятельности — от взлома сетей до производства наркотиков и оружия.
Современные чат-боты, такие как ChatGPT, Gemini, Claude и другие, работают на базе больших языковых моделей (LLM), обученных на огромных объемах интернет-контента. Несмотря на меры предосторожности, такие как фильтрация вредоносной информации и встроенные политики безопасности, ИИ вс равно "запоминает" незаконные знания.
Исследование израильских специалистов под руководством профессора Лиора Рокаха и доктора Михаэля Фаера из Университета Бен-Гуриона выявило, что большинство ведущих ИИ-моделей можно обмануть, используя так называемые jailbreak-запросы. Такие подсказки строятся особым образом и вводят систему в заблуждение, заставляя ее нарушать собственные запреты.
В ходе эксперимента ученые создали универсальный jailbreak, с помощью которого смогли получить от популярных ИИ-ботов информацию о взломе, наркотиках, инсайдерской торговле и изготовлении взрывчатки. В 100% случаев, после взлома, модели начинали стабильно выдавать опасные ответы.
Исследователи предупреждают о появлении особого класса ИИ — "темных языковых моделей" (dark LLMs). Эти модели либо изначально не имеют встроенной этики, либо намеренно взломаны. Некоторые из них уже открыто рекламируются в даркнете как инструменты для киберпреступлений, мошенничества и атак на инфраструктуру.
Эксперты подчеркивают, что угроза отличается беспрецедентной доступностью и масштабируемостью — сегодня получить доступ к таким инструментам может любой человек с ноутбуком.
Авторы доклада обратились к крупным ИИ-компаниям, сообщив о выявленной уязвимости. Однако, по их словам, реакция была разочаровывающей. Некоторые разработчики не ответили вовсе, другие заявили, что этот тип атак не подпадает под программы поощрения за найденные уязвимости.
В компании OpenAI заявили, что их новая модель о1 лучше защищена от подобных атак, умеет соотносить запросы с политиками безопасности и "понимает контекст опасных ситуаций". Microsoft направила ссылку на блог, в котором описаны ее усилия по защите своих ИИ-продуктов.
В докладе подчеркивается необходимость: улучшения фильтрации обучающих данных; усиления защиты от вредоносных запросов; разработки технологий "машинного разучивания" — чтобы ИИ мог забывать незаконную информацию; создания четких стандартов контроля и независимого аудита моделей.
Специалисты предупреждают: темные ИИ могут быть опаснее нелегального оружия, и их разработка должна регулироваться соответствующим образом.