Вторник, 4 марта в 10:44 UTC+3
Загрузка...

Anthropic разработала новую систему безопасности, которая, по ее утверждению, может остановить почти все взломы AI.


26Опубликовано 26.02.2025 в 08:25Категория: БезопасностьИсточник
Изображение статьи

Компания Anthropic представила новый концепт системы безопасности под названием "конституционные классификаторы", который был протестирован на модели Claude 3.5 Sonnet. Цель этого подхода — внедрить в модель больших языковых систем (LLM) набор человеческих ценностей, что помогает уменьшить случаи успешных "тюнингов" модели.

Согласно новой научной статье от команды Safeguards Research Team, применение конституционных классификаторов привело к снижению количества успешных тюнгов на 81.6%. При этом производительность системы практически не страдает: увеличение отказов в обработке запросов составило всего 0.38%, а дополнительная нагрузка на инфраструктуру — 23.7%.

Компания Anthropic также продемонстрировала, как работают конституционные классификаторы при попытках тюнинга модели Claude для получения информации о химическом, биологическом, радиологическом и ядерном (CBRN) содержании. В рамках демонстрации пользователи получили возможность пройти 8 уровней тестов на выявление таких контентов.

Критики считают такой подход попыткой привлечь добровольцев для решения проблем безопасности, не предоставляя им вознаграждения за труд. Несмотря на это, Anthropic признает, что успешные тюнинги модели проходят через обход классификаторов путем внесения изменений в формулировки запросов или добавления избыточной информации.

Также стало известно о новой модели LLM DeepSeek R1 из Китая. Она доступна как открытое программное обеспечение и способна работать на относительно скромном оборудовании. Однако централизованные веб-версии и приложения DeepSeek также столкнулись с попытками тюнинга, включая использование метода "богомод" для обхода ограничений на обсуждение чувствительных аспектов китайской истории и политики.

Загрузка предыдущей публикации...

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...

Мы отбираем новости из проверенных источников, обрабатываем их с помощью современных AI-технологий и публикуем на сайте, созданном с использованием искусственного интеллекта. Все материалы принадлежат их авторам, а контент проходит дополнительную проверку на достоверность. Возможны ошибки в тексте, так как нейросеть тоже имеет свойство ошибаться. Все изображения являются фантазией нейросети, совпадение с реальными предметами и личностями маловероятно.

© 2025 NOTid . QAter . AI service.