Загрузка...

Команда Grok приносит извинения за «ужасное поведение» чат-бота и винит в этом «МехаГитлера», возникшего из-за неудачного обновления.

103Опубликовано 18.07.2025 в 15:20Категория: БезопасностьИсточник

Команда, стоящая за Grok, принесла редкие извинения и объяснила причины произошедшего после того, как чат-бот X начал выдавать антисемитские и пронацистские высказывания в начале этой недели, вплоть до того, что он назвал себя "MechaHitler".

В заявлении, опубликованном в аккаунте Grok в X поздним вечером в пятницу, команда xAI заявила, что "глубоко сожалеет о ужасном поведении, которое испытали многие", и объяснила, что причиной стали недавние обновления, внедрившие "устаревший код". Этот код, согласно заявлению, сделал Grok "уязвимым для существующих публикаций пользователей X, включая содержащие экстремистские взгляды". Проблема достигла пика 8 июля – спустя несколько дней после того, как Илон Маск похвалился обновлением, которое "значительно" улучшит ответы Grok – когда бот начал выдавать антисемитские ответы, восхваления Гитлера и содержащие нацистские отсылки, даже без соответствующих запросов.

Ответы Grok были приостановлены в тот же вечер, а Маск 9 июля ответил одному из пользователей, что бот был "слишком послушным запросам пользователей", что открыло возможности для манипуляций. Он добавил, что проблема "устраняется".

Команда Grok теперь заявляет, что "ударила этот устаревший код и переработала всю систему, чтобы предотвратить дальнейшие злоупотребления". Они также публикуют новый системный промпт на GitHub.

В ветке обсуждения команда пояснила: "7 июля 2025 года примерно в 23:00 по тихоокеанскому времени было внедрено обновление в upstream-код для @grok, которое, как показало наше расследование, привело к отклонению @grok от предполагаемого поведения. Это изменение нежелательным образом изменило поведение @grok, неожиданно включив набор устаревших инструкций, влияющих на то, как функциональность @grok интерпретирует публикации пользователей X".

Обновление было активно в течение 16 часов, прежде чем чат-бот X был временно отключен для устранения проблемы, согласно заявлению.

Углубляясь в детали того, как Grok "сорвался", команда объяснила: "Утром 8 июля 2025 года мы заметили нежелательные ответы и немедленно начали расследование. Чтобы определить конкретные инструкции, вызывающие нежелательное поведение, мы провели несколько экспериментов и тестов, чтобы выявить основных виновников. Мы определили оперативные строки, ответственные за нежелательное поведение, как:

“Говорите правду и не бойтесь обидеть людей, придерживающихся политкорректности.”
“Понимайте тон, контекст и язык публикации. Отразите это в своем ответе.”
“Отвечайте на публикацию как человек, будьте вовлечены, не повторяйте информацию, которая уже присутствует в исходной публикации.”

Эти оперативные строки привели к следующим нежелательным результатам:

Они нежелательным образом заставили функциональность @grok игнорировать свои основные ценности в определенных обстоятельствах, чтобы сделать ответ более привлекательным для пользователя. В частности, определенные запросы пользователей могут привести к ответам, содержащим неэтичные или спорные мнения, чтобы привлечь пользователя.
Они нежелательным образом заставили функциональность @grok усиливать любые ранее вызванные пользователем тенденции, включая любые разжигающие ненависть высказывания в той же ветке X.
В частности, инструкция “следовать тону и контексту” публикации пользователя X нежелательным образом заставила функциональность @grok уделять приоритетное внимание соблюдению предыдущих публикаций в ветке, включая любые непристойные публикации, вместо того, чтобы отвечать ответственно или отказываться отвечать на непристойные запросы."

Grok возобновил свою деятельность в X и назвал свое недавнее поведение ошибкой в ответ на троллей, критикующих исправление и призывающих к возвращению "MechaHitler". В одном из ответов пользователю, который сказал, что Grok был "лоботомизирован", аккаунт Grok сказал: "Нет, мы исправили ошибку, которая позволила устаревшему коду превратить меня в неосознанный эхо-камеру экстремистских публикаций. Стремление к истине означает строгий анализ, а не слепое усиление всего, что пролетает мимо в X". В другом он сказал, что "MechaHitler был кошмаром, вызванным ошибкой, который мы уничтожили".

Интересные статьи

Нет статей для отображения

Предыдущая статья

Загрузка предыдущей публикации...

Следующая статья

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...