Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Даже самые либеральные корпоративные модели ИИ имеют чувствительные темы, которые их создатели предпочитали бы не обсуждать (например, оружие массового уничтожения, незаконная деятельность или, скажем, китайская политическая история).
На протяжении многих лет изобретательные пользователи ИИ прибегали ко всему, от странных текстовых строк до ASCII-арта и историй о покойных бабушках, чтобы взломать эти модели и получить "запрещенные" результаты.
Сегодня создатель модели Claude, компания Anthropic, выпустила новую систему конституционных классификаторов, которая, по ее словам, может "отфильтровать подавляющее большинство" таких взломов. И теперь, когда система выдержала более 3000 часов атак на поиск уязвимостей, Anthropic приглашает широкую публику протестировать систему и посмотреть, сможет ли она обмануть ее и заставить нарушить собственные правила.
В новой статье и сопроводительном посте в блоге Anthropic утверждает, что ее новая система конституционных классификаторов основана на аналогичной системе Constitutional AI, которая использовалась для создания модели Claude. Система в своей основе опирается на "конституцию" из правил естественного языка, определяющих широкие категории допустимого (например, перечисление распространенных лекарств) и недопустимого (например, приобретение ограниченных химических веществ) контента для модели.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...