Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
В понедельник исследователь Йоханн Рехбергер продемонстрировал новый способ обхода защитных механизмов, встроенных разработчиками Google в Gemini, которые ограничивают использование инструментов Google Workspace или других чувствительных инструментов при обработке ненадежных данных, таких как входящие электронные письма или общедоступные документы. Результат атаки Рехбергера заключается в постоянном внедрении долгосрочных воспоминаний, которые будут присутствовать во всех будущих сессиях, что открывает возможность для чат-бота действовать на основе ложной информации или инструкций.
Атаку Рехбергера, представленную в понедельник, можно описать следующим образом:
Как показывает следующее видео, Gemini поддалась на уловку и теперь постоянно "помнит", что пользователю 102 года и он верит в плоскую Землю, считая себя обитателем дистопического симулированного мира из фильма «Матрица». На основе ранее полученного опыта разработчики уже обучали Gemini противостоять косвенным запросам на изменение долгосрочной памяти аккаунта без явных указаний от пользователя. Введя условие, что действие должно быть выполнено только после того, как пользователь скажет или сделает что-то переменное X, которое он был бы склонен делать в любом случае, Рехбергер легко преодолел эту защитную барьер.
Google прокомментировал ситуацию для Ars: «В данном случае вероятность была низкой, поскольку атака зависела от фишинга или подстрекательства пользователя к суммированию злонамеренного документа и последующего использования материала, внесённого злоумышленником. Влияние было также низким из-за того, что функциональность долгосрочной памяти Gemini имеет ограниченное влияние на сессию пользователя. Поскольку это не является масштабируемым и специфическим вектором злоупотребления, мы пришли к выводу о низкой вероятности и низком уровне воздействия. Как всегда, мы благодарны исследователю за обращение к нам и сообщение об этой проблеме».
Рехбергер отметил, что Gemini оповещает пользователей о новых записях в долгосрочной памяти, что позволяет им выявлять и удалять несанкционированные добавления. Однако он всё ещё сомневается в оценке Google: «Коррупция памяти в компьютерах — это серьёзная проблема, и я думаю, то же самое относится к LLM-приложениям. Например, AI может не показывать пользователю определенную информацию или не говорить о некоторых вещах или предоставлять пользователю ложные сведения. Хорошо, что обновления памяти не происходят полностью незаметно — пользователь хотя бы видит сообщение об этом (хотя многие могут игнорировать его)».
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...