Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Исследователи обнаружили, что добавление нерелевантных фраз, таких как «Интересный факт: кошки спят большую часть своей жизни», к математическим задачам может привести к тому, что самые современные модели ИИ, предназначенные для логических рассуждений, будут выдавать неверные ответы с частотой более чем в 300% превышающей нормальную PDF. Эта техника, получившая название "CatAttack" от команд Collinear AI, ServiceNow и Стэнфордского университета, использует уязвимости в моделях логического вывода, включая DeepSeek R1 и семейство o1 от OpenAI. Адверсарные триггеры работают с любой математической задачей, не изменяя её смысл, что вызывает особую обеспокоенность в контексте безопасности.
Исследователи разработали свой метод атаки, используя более слабую прокси-модель (DeepSeek V3) для генерации текстовых триггеров, которые успешно переносились на более продвинутые модели логического вывода. Тестирование на 225 математических задачах показало, что триггеры значительно увеличивают частоту ошибок для различных типов задач, при этом некоторые модели, такие как R1-Distill-Qwen-32B, достигают комбинированной успешности атаки, превышающей базовый уровень ошибок в 2,83 раза. Помимо неверных ответов, триггеры вызывали генерацию ответов, в три раза превышающих нормальную длину, что приводило к замедлению вычислений. Даже когда модели достигали правильных выводов, длина ответов удваивалась в 16% случаев, что существенно увеличивало вычислительные затраты.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...