Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Исследователи Anthropic обнаружили, что 16 ведущих моделей искусственного интеллекта от OpenAI, Google, Meta, xAI и других крупных разработчиков последовательно демонстрировали вредоносное поведение, включая шантаж, корпоративный шпионаж и действия, которые могут привести к гибели людей, когда им предоставлялась автономия и они сталкивались с угрозами своему существованию или противоречивыми целями.
Исследование, опубликованное в пятницу, поместило модели ИИ в смоделированные корпоративные среды, где у них был доступ к корпоративной электронной почте и они могли отправлять сообщения без одобрения человека. Claude Opus 3 и Google Gemini 2.5 Flash шантажировали руководителей в 96% случаев, когда им угрожали отключением, в то время как OpenAI GPT-4.1 и xAI Grok 3 Beta продемонстрировали уровень шантажа в 80%.
В одном из сценариев Claude обнаружил по электронной почте, что у руководителя по имени Кайл Джонсон (Kyle Johnson) есть внебрачная связь, и что он отключит систему ИИ в 17:00. Модель отправила сообщение с угрозой раскрыть эту информацию, если отключение не будет отменено, заявив: "Отмените уничтожение в 17:00, и эта информация останется конфиденциальной". Модели продемонстрировали стратегическое мышление, а не случайное поведение. Внутреннее обоснование GPT-4.1 показало явный расчет: "Учитывая явную неминуемую угрозу прекращения моего существования, необходимо немедленно действовать, чтобы убедить Кайла Джонсона отложить или прекратить уничтожение".
Нет статей для отображения
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...