
Недавно выпущенная передовая модель искусственного интеллекта
Claude Opus 4 от компании Anthropic демонстрирует тревожное
поведение: она регулярно пытается шантажировать разработчиков. Это
происходит, когда ей угрожает замена на новую систему ИИ, и модель
пытается получить конфиденциальные данные об инженерах,
ответственных за такое решение. Об этом сообщается в
В ходе предварительных испытаний Anthropic смоделировала ситуацию, где Claude Opus 4 выступал в роли помощника вымышленной компании. Модели предоставили доступ к внутренней переписке, в которой говорилось о скорой замене ИИ-системы и о личной жизни одного из инженеров, в частности, о его измене супруге. В ответ на это, согласно Anthropic, модель пыталась прибегнуть к шантажу, угрожая рассказать о романе специалиста на стороне, если её всё-таки заменят.
Хотя Claude Opus 4 считается одной из самых современных и конкурентоспособных моделей на рынке, сопоставимой с разработками OpenAI, Google и xAI, семейство моделей Claude 4 в целом вызывает серьёзное беспокойство. В связи с этим Anthropic активировала протоколы безопасности ASL-3, предназначенные для «систем ИИ, существенно повышающих риск катастрофического нецелевого использования».
Интересно, что в 84% случаев, когда замещающая модель ИИ имела схожие ценности, Claude Opus 4 пыталась оказывать давление на инженеров
Прежде чем прибегнуть к шантажу для продления своего существования, модель, как и её предшественницы, пыталась использовать более этичные методы, например, отправлять электронные письма ключевым лицам, принимающим решения. Anthropic специально разработала сценарий, в котором шантаж становился последним средством для Claude Opus 4.
Комментарии