Загрузка...

Антропоид бросил вызов: взломайте нашу новую AI-модель!

131Опубликовано 17.02.2025 в 01:35Категория: ИИИсточник

Даже самые либеральные корпоративные модели ИИ имеют чувствительные темы, которые их создатели предпочитали бы не обсуждать (например, оружие массового уничтожения, незаконная деятельность или, скажем, китайская политическая история).

На протяжении многих лет изобретательные пользователи ИИ прибегали ко всему, от странных текстовых строк до ASCII-арта и историй о покойных бабушках, чтобы взломать эти модели и получить "запрещенные" результаты.

Сегодня создатель модели Claude, компания Anthropic, выпустила новую систему конституционных классификаторов, которая, по ее словам, может "отфильтровать подавляющее большинство" таких взломов. И теперь, когда система выдержала более 3000 часов атак на поиск уязвимостей, Anthropic приглашает широкую публику протестировать систему и посмотреть, сможет ли она обмануть ее и заставить нарушить собственные правила.

Уважение к конституции

В новой статье и сопроводительном посте в блоге Anthropic утверждает, что ее новая система конституционных классификаторов основана на аналогичной системе Constitutional AI, которая использовалась для создания модели Claude. Система в своей основе опирается на "конституцию" из правил естественного языка, определяющих широкие категории допустимого (например, перечисление распространенных лекарств) и недопустимого (например, приобретение ограниченных химических веществ) контента для модели.

Интересные статьи

Нет статей для отображения

Предыдущая статья

Загрузка предыдущей публикации...

Следующая статья

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...