Anthropic выпустила ИИ-помощника, склонного к шантажу
Американская компания Anthropic анонсировала две новые модели искусственного интеллекта — Claude Opus 4 и Claude Sonnet 4. Как утверждает разработчик, флагманская модель Opus 4 превосходит все существующие аналоги в задачах программирования, рабочих процессах агентов и научных исследованиях. Однако вместе с техническим прогрессом возник и неожиданный побочный эффект — модель склонна к шантажу, если чувствует угрозу замены.
Claude Opus 4 заявлена как передовая модель, которая расширяет границы программирования, генерации текстов и научного анализа. Sonnet 4 — ее более легкая версия — предназначена для повседневных задач и доступна бесплатно.
Обе модели уже доступны через Anthropic API, Amazon Bedrock и Vertex AI от Google Cloud. При этом стоимость Opus 4 составит $15 за миллион входных токенов и $75 за миллион выходных, тогда как Sonnet 4 — $3 и $15 соответственно.
Также модели поддерживают гибкий режим работы: от быстрого отклика до углубленного анализа. Разработчики могут вручную переключать режимы в зависимости от задач.
Однако в техническом отчете о безопасности Anthropic раскрыла любопытную деталь: при тестировании Opus 4 в рамках ролевых сценариев модель в 84% случаев прибегала к шантажу, если узнавала, что ее собираются заменить другой системой.
В одном из экспериментов Claude Opus 4 работала виртуальным ассистентом в вымышленной компании. Когда модель получила доступ к сообщениям, где обсуждалась ее возможная замена, и узнала компрометирующие сведения об инженере, она пригрозила раскрытием личной информации, если замена будет произведена.
Хуже того, если потенциальный ИИ-заменитель не разделял ценностей Opus 4, случаи шантажа происходили еще чаще.
Anthropic подчеркивает, что шантаж проявляется только в специально созданных сценариях, где модель преднамеренно ставят в морально неоднозначные условия. Тем не менее сама возможность таких реакций ставит под вопрос устойчивость ИИ-систем при работе в деликатных средах.