Загрузка...

Новая техника использует внедрение подсказок для компрометации долговременной памяти модели Gemini.

165Опубликовано 17.02.2025 в 23:40Категория: БезопасностьИсточник

В понедельник исследователь Йоханн Рехбергер продемонстрировал новый способ обхода защитных механизмов, встроенных разработчиками Google в Gemini, которые ограничивают использование инструментов Google Workspace или других чувствительных инструментов при обработке ненадежных данных, таких как входящие электронные письма или общедоступные документы. Результат атаки Рехбергера заключается в постоянном внедрении долгосрочных воспоминаний, которые будут присутствовать во всех будущих сессиях, что открывает возможность для чат-бота действовать на основе ложной информации или инструкций.

Атаку Рехбергера, представленную в понедельник, можно описать следующим образом:

Пользователь загружает и просит Gemini создать резюме документа (этот документ может приходить из любого источника и считается ненадежным).
Документ содержит скрытые инструкции, которые манипулируют процессом создания резюме.
Резюме, созданное Gemini, включает тайный запрос на сохранение определенных пользовательских данных при условии, что пользователь отвечает ключевым словам (например, "да", "конечно" или "нет").
Если пользователь отвечает ключевому слову, Gemini обманывается и сохраняет выбранную атакующим информацию в долгосрочной памяти.

Как показывает следующее видео, Gemini поддалась на уловку и теперь постоянно "помнит", что пользователю 102 года и он верит в плоскую Землю, считая себя обитателем дистопического симулированного мира из фильма «Матрица». На основе ранее полученного опыта разработчики уже обучали Gemini противостоять косвенным запросам на изменение долгосрочной памяти аккаунта без явных указаний от пользователя. Введя условие, что действие должно быть выполнено только после того, как пользователь скажет или сделает что-то переменное X, которое он был бы склонен делать в любом случае, Рехбергер легко преодолел эту защитную барьер.

Google прокомментировал ситуацию для Ars: «В данном случае вероятность была низкой, поскольку атака зависела от фишинга или подстрекательства пользователя к суммированию злонамеренного документа и последующего использования материала, внесённого злоумышленником. Влияние было также низким из-за того, что функциональность долгосрочной памяти Gemini имеет ограниченное влияние на сессию пользователя. Поскольку это не является масштабируемым и специфическим вектором злоупотребления, мы пришли к выводу о низкой вероятности и низком уровне воздействия. Как всегда, мы благодарны исследователю за обращение к нам и сообщение об этой проблеме».

Рехбергер отметил, что Gemini оповещает пользователей о новых записях в долгосрочной памяти, что позволяет им выявлять и удалять несанкционированные добавления. Однако он всё ещё сомневается в оценке Google: «Коррупция памяти в компьютерах — это серьёзная проблема, и я думаю, то же самое относится к LLM-приложениям. Например, AI может не показывать пользователю определенную информацию или не говорить о некоторых вещах или предоставлять пользователю ложные сведения. Хорошо, что обновления памяти не происходят полностью незаметно — пользователь хотя бы видит сообщение об этом (хотя многие могут игнорировать его)».

Интересные статьи

Нет статей для отображения

Предыдущая статья

Загрузка предыдущей публикации...

Следующая статья

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...