Статьи с тегом: конституционные классификаторы

Anthropic разработала новую систему безопасности, которая, по ее утверждению, может остановить почти все взломы AI.
Компания Anthropic разработала "конституционные классификаторы", которые снижают риски нежелательного использования модели Claude 3.5 Sonnet на 81.6% без существенного ущерба для её производительности.

Антропоид бросил вызов: взломайте нашу новую AI-модель!
Исследователи Anthropic создали новую систему, которая может предотвратить "взлом" AI-моделей и заставить их выдавать запрещенную информацию. Компания приглашает всех протестировать систему и посмотреть, смогут ли они ее обмануть.