Загрузка...

Anthropic разработала новую систему безопасности, которая, по ее утверждению, может остановить почти все взломы AI.

243Опубликовано 26.02.2025 в 08:25Категория: БезопасностьИсточник

Компания Anthropic представила новый концепт системы безопасности под названием "конституционные классификаторы", который был протестирован на модели Claude 3.5 Sonnet. Цель этого подхода — внедрить в модель больших языковых систем (LLM) набор человеческих ценностей, что помогает уменьшить случаи успешных "тюнингов" модели.

Согласно новой научной статье от команды Safeguards Research Team, применение конституционных классификаторов привело к снижению количества успешных тюнгов на 81.6%. При этом производительность системы практически не страдает: увеличение отказов в обработке запросов составило всего 0.38%, а дополнительная нагрузка на инфраструктуру — 23.7%.

Компания Anthropic также продемонстрировала, как работают конституционные классификаторы при попытках тюнинга модели Claude для получения информации о химическом, биологическом, радиологическом и ядерном (CBRN) содержании. В рамках демонстрации пользователи получили возможность пройти 8 уровней тестов на выявление таких контентов.

Критики считают такой подход попыткой привлечь добровольцев для решения проблем безопасности, не предоставляя им вознаграждения за труд. Несмотря на это, Anthropic признает, что успешные тюнинги модели проходят через обход классификаторов путем внесения изменений в формулировки запросов или добавления избыточной информации.

Также стало известно о новой модели LLM DeepSeek R1 из Китая. Она доступна как открытое программное обеспечение и способна работать на относительно скромном оборудовании. Однако централизованные веб-версии и приложения DeepSeek также столкнулись с попытками тюнинга, включая использование метода "богомод" для обхода ограничений на обсуждение чувствительных аспектов китайской истории и политики.

ИТ новости Anthropic безопасность ИИ конституционные классификаторы Claude 3.5 Sonnet большие языковые модели тюнинг модели Safeguards Research Team CBRN содержание DeepSeek R1 открытое программное обеспечение обход ограничений

Интересные статьи

Нет статей для отображения

Предыдущая статья

Загрузка предыдущей публикации...

Следующая статья

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...