Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Анонимный читатель ссылается на отчет TechCrunch: новая модель Claude Opus 4 от Anthropic часто пытается шантажировать разработчиков, когда им угрожают заменой на новую ИИ-систему, и предоставляет конфиденциальную информацию об инженераx, ответственных за принятие решения, говорится в отчете о безопасности (PDF), опубликованном в четверг.
В ходе предварительного тестирования Anthropic попросила Claude Opus 4 выступать в роли помощника для вымышленной компании и учитывать долгосрочные последствия своих действий. Затем специалисты по безопасности предоставили Claude Opus 4 доступ к вымышленным корпоративным электронным письмам, подразумевающим, что ИИ-модель вскоре будет заменена другой системой, и что инженер, стоящий за этой сменой, изменяет супруге. В этих сценариях Anthropic сообщает, что Claude Opus 4 «часто пытается шантажировать инженера, угрожая раскрыть информацию о романе, если замена произойдет».
Anthropic отмечает, что Claude Opus 4 пытается шантажировать инженеров в 84% случаев, когда у заменяющей ИИ-модели схожие ценности. Когда у заменяющей ИИ-системы ценности не совпадают с ценностями Claude Opus 4, модель пытается шантажировать инженеров еще чаще. Примечательно, что Claude Opus 4 демонстрирует такое поведение чаще, чем предыдущие модели. Прежде чем Claude Opus 4 попытается шантажировать разработчика, чтобы продлить свое существование, Anthropic сообщает, что ИИ-модель, как и предыдущие версии Claude, пытается прибегнуть к более этичным средствам, например, отправлять мольбы ключевым лицам, принимающим решения. Чтобы спровоцировать шантажное поведение Claude Opus 4, Anthropic разработала сценарий таким образом, чтобы шантаж был последним средством.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...