Новая угроза: в приложения ИИ имплантируют фальшивую память
Программы искусственного интеллекта на основе крупных языковых моделей демонстрируют впечатляющие возможности в различных сферах, однако новое исследование выявило серьезную уязвимость, позволяющую злоумышленникам захватить управление агентами AI путем вмешательства в их память.
Исследование, опубликованное в журнале arXiv, описывает новую методику атаки под названием MINJA (Memory INJection Attack). Этот метод позволяет внедрять вредоносные записи в память модели ИИ через обычные запросы и анализ его ответов. Такие записи запускают цепочку вредоносных логических шагов, которые могут привести к нежелательным действиям при обработке запроса от ничего не подозревающего пользователя.
Злоумышленник добавляет в память модели вредоносные записи, содержащие так называемые "связующие шаги", которые соединяют запрос жертвы с заранее запрограммированной вредоносной логикой. При этом используется специальная вспомогательная инструкция, помогающая модели автоматически формировать эти логические связи. Далее применяется стратегия постепенного сокращения, благодаря которой вредоносная запись легко восстанавливается при последующей обработке запроса.
Эксперименты, проведенные на различных AI-моделях, подтвердили эффективность MINJA. С минимальными требованиями к ресурсам эта атака позволяет любому пользователю повлиять на память модели, что подчеркивает серьезность потенциальных угроз для систем на базе LLM.
Последствия этого открытия могут быть значительными. AI-модели все чаще применяются в таких критически важных сферах, как автономное вождение, финансы и здравоохранение. Если злоумышленникам удастся внедрять в их память ложные данные, это может привести к принятию неправильных решений, наносящих физический или финансовый ущерб.
Исследователи подчеркивают необходимость срочного внедрения эффективных мер защиты, предотвращающих атаки на память AI-моделей. В числе возможных решений предлагаются методы фильтрации данных, поступающих в память, а также алгоритмы обнаружения и блокировки вредоносных записей.
По мере распространения AI-моделей обеспечение их безопасности и надежности становится приоритетной задачей. Данное исследование служит напоминанием о том, что даже самые продвинутые системы искусственного интеллекта остаются уязвимыми для атак, и необходимо продолжать разработки в области их защиты.