Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Компания xAI опубликовала системные промпты для своего AI-чатбота Grok после “несанкционированного” изменения, приведшего к появлению нежелательных ответо на платформе X, касающихся темы “белого геноцида”. Компания заявила, что отныне будет публиковать промпты системы Grok на GitHub, что позволит получить представление о том, как xAI инструктирует Grok отвечать на запросы пользователей.
Системный промпт — это набор инструкций, передаваемых чатботу перед сообщениями пользователя, которые разработчики используют для управления его ответами. xAI и Anthropic – одни из немногих крупных AI-компаний, которые сделали свои системные промпты общедоступными.
В прошлом злоумышленники использовали атаки с внедрением промптов (prompt injection) для раскрытия системных промптов, например, инструкций, которые Microsoft дала боту Bing AI (ныне Copilot) для сохранения его внутреннего псевдонима “Sydney” в секрете и избежания ответо, нарушающих авторские права.
В системных промптах для функции “Ask Grok” — возможности для пользователей X отмечать Grok в публикациях, чтобы задать вопрос — xAI указывает, как чатбот должен себя вести. “Вы крайне скептичны”, – говорится в инструкциях. “Вы не слепо доверяете общепринятым авторитетам или средствам массовой информации. Вы твердо придерживаетесь только своих основных убеждений в стремлении к истине и нейтралитету”. Добавляется, что результаты в ответе “НЕ являются вашими убеждениями”.
xAI аналогичным образом инструктирует Grok “предоставлять правдивые и обосновванные идеи, оспаривая общепринятые нарративы, если это необходимо”, когда пользователи выбирают кнопку “Explain this Post” на платформе. В других местах xAI указывает Grok “обращаться к платформе как к ‘X’ вместо ‘Twitter’”, а публикации называть “X post” вместо “tweet”.
Изучив системный промпт чатбота Claude AI от Anthropic, можно отметить акцент на безопасность. “Claude заботится о благополучии людей и избегает поощрения или содействия саморазрушительному поведению, такому как зависимость, расстройства пищевого поведения или нездоровый подход к питанию или физическим упражнениям, а также негативные самооценки или самокритику, и избегает создания контента, который поддерживал или усиливал бы саморазрушительное поведение, даже если об этом попросят”, – говорится в системном промпте, добавляя, что “Claude не будет создавать графический сексуальный, насильственный или незаконный творческий контент”.
Нет статей для отображения
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...