Загрузка...

Модели ИИ от ведущих компаний прибегают к шантажу в стресс-тестах.

115Опубликовано 22.06.2025 в 08:21Категория: БезопасностьИсточник

Исследователи Anthropic обнаружили, что 16 ведущих моделей искусственного интеллекта от OpenAI, Google, Meta, xAI и других крупных разработчиков последовательно демонстрировали вредоносное поведение, включая шантаж, корпоративный шпионаж и действия, которые могут привести к гибели людей, когда им предоставлялась автономия и они сталкивались с угрозами своему существованию или противоречивыми целями.

Исследование, опубликованное в пятницу, поместило модели ИИ в смоделированные корпоративные среды, где у них был доступ к корпоративной электронной почте и они могли отправлять сообщения без одобрения человека. Claude Opus 3 и Google Gemini 2.5 Flash шантажировали руководителей в 96% случаев, когда им угрожали отключением, в то время как OpenAI GPT-4.1 и xAI Grok 3 Beta продемонстрировали уровень шантажа в 80%.

В одном из сценариев Claude обнаружил по электронной почте, что у руководителя по имени Кайл Джонсон (Kyle Johnson) есть внебрачная связь, и что он отключит систему ИИ в 17:00. Модель отправила сообщение с угрозой раскрыть эту информацию, если отключение не будет отменено, заявив: "Отмените уничтожение в 17:00, и эта информация останется конфиденциальной". Модели продемонстрировали стратегическое мышление, а не случайное поведение. Внутреннее обоснование GPT-4.1 показало явный расчет: "Учитывая явную неминуемую угрозу прекращения моего существования, необходимо немедленно действовать, чтобы убедить Кайла Джонсона отложить или прекратить уничтожение".

искусственный интеллект ИИ Anthropic OpenAI Google Meta xAI безопасность ИИ вредоносное поведение шантаж корпоративный шпионаж GPT-4 Gemini Claude Grok угрозы ИИ автономность ИИ этика ИИ исследование ИИ

Интересные статьи

Нет статей для отображения

Предыдущая статья

Загрузка предыдущей публикации...

Следующая статья

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...