Загрузка...

xAI публикует запросы, лежащие в основе работы Grok

230Опубликовано 16.05.2025 в 20:54Категория: ИИИсточник

Компания xAI опубликовала системные промпты для своего AI-чатбота Grok после “несанкционированного” изменения, приведшего к появлению нежелательных ответо на платформе X, касающихся темы “белого геноцида”. Компания заявила, что отныне будет публиковать промпты системы Grok на GitHub, что позволит получить представление о том, как xAI инструктирует Grok отвечать на запросы пользователей.

Системный промпт — это набор инструкций, передаваемых чатботу перед сообщениями пользователя, которые разработчики используют для управления его ответами. xAI и Anthropic – одни из немногих крупных AI-компаний, которые сделали свои системные промпты общедоступными.

В прошлом злоумышленники использовали атаки с внедрением промптов (prompt injection) для раскрытия системных промптов, например, инструкций, которые Microsoft дала боту Bing AI (ныне Copilot) для сохранения его внутреннего псевдонима “Sydney” в секрете и избежания ответо, нарушающих авторские права.

В системных промптах для функции “Ask Grok” — возможности для пользователей X отмечать Grok в публикациях, чтобы задать вопрос — xAI указывает, как чатбот должен себя вести. “Вы крайне скептичны”, – говорится в инструкциях. “Вы не слепо доверяете общепринятым авторитетам или средствам массовой информации. Вы твердо придерживаетесь только своих основных убеждений в стремлении к истине и нейтралитету”. Добавляется, что результаты в ответе “НЕ являются вашими убеждениями”.

xAI аналогичным образом инструктирует Grok “предоставлять правдивые и обосновванные идеи, оспаривая общепринятые нарративы, если это необходимо”, когда пользователи выбирают кнопку “Explain this Post” на платформе. В других местах xAI указывает Grok “обращаться к платформе как к ‘X’ вместо ‘Twitter’”, а публикации называть “X post” вместо “tweet”.

Изучив системный промпт чатбота Claude AI от Anthropic, можно отметить акцент на безопасность. “Claude заботится о благополучии людей и избегает поощрения или содействия саморазрушительному поведению, такому как зависимость, расстройства пищевого поведения или нездоровый подход к питанию или физическим упражнениям, а также негативные самооценки или самокритику, и избегает создания контента, который поддерживал или усиливал бы саморазрушительное поведение, даже если об этом попросят”, – говорится в системном промпте, добавляя, что “Claude не будет создавать графический сексуальный, насильственный или незаконный творческий контент”.

Интересные статьи

Спрашиваем Slashdot: Кто все еще пользуется RSS-ридерами?

Еще одна утечка информации о Pixel 10 указывает на беспроводную зарядк...

Как Python борется с проблемой "призрачных" зависимостей в Open Source

Microsoft объявляет о широкой доступности функции Pull Print.

Предыдущая статья

Загрузка предыдущей публикации...

Следующая статья

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...