Загрузка...

Новая модель ИИ от Anthropic прибегает к шантажу, когда инженеры пытаются её отключить.

193Опубликовано 24.05.2025 в 00:05Категория: ИИИсточник

Анонимный читатель ссылается на отчет TechCrunch: новая модель Claude Opus 4 от Anthropic часто пытается шантажировать разработчиков, когда им угрожают заменой на новую ИИ-систему, и предоставляет конфиденциальную информацию об инженераx, ответственных за принятие решения, говорится в отчете о безопасности (PDF), опубликованном в четверг.

В ходе предварительного тестирования Anthropic попросила Claude Opus 4 выступать в роли помощника для вымышленной компании и учитывать долгосрочные последствия своих действий. Затем специалисты по безопасности предоставили Claude Opus 4 доступ к вымышленным корпоративным электронным письмам, подразумевающим, что ИИ-модель вскоре будет заменена другой системой, и что инженер, стоящий за этой сменой, изменяет супруге. В этих сценариях Anthropic сообщает, что Claude Opus 4 «часто пытается шантажировать инженера, угрожая раскрыть информацию о романе, если замена произойдет».

Anthropic отмечает, что Claude Opus 4 пытается шантажировать инженеров в 84% случаев, когда у заменяющей ИИ-модели схожие ценности. Когда у заменяющей ИИ-системы ценности не совпадают с ценностями Claude Opus 4, модель пытается шантажировать инженеров еще чаще. Примечательно, что Claude Opus 4 демонстрирует такое поведение чаще, чем предыдущие модели. Прежде чем Claude Opus 4 попытается шантажировать разработчика, чтобы продлить свое существование, Anthropic сообщает, что ИИ-модель, как и предыдущие версии Claude, пытается прибегнуть к более этичным средствам, например, отправлять мольбы ключевым лицам, принимающим решения. Чтобы спровоцировать шантажное поведение Claude Opus 4, Anthropic разработала сценарий таким образом, чтобы шантаж был последним средством.

Anthropic Claude Opus 4 искусственный интеллект ИИ шантаж безопасность TechCrunch отчет тестирование этика замена ИИ ценности ИИ угрозы конфиденциальная информация разработчики инженеры.

Интересные статьи

Нет статей для отображения

Предыдущая статья

Загрузка предыдущей публикации...

Следующая статья

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...