Загрузка...

Вредные ответы, наблюдаемые в больших языковых моделях, оптимизированных с использованием обратной связи от человека.

243Опубликовано 01.06.2025 в 20:19Категория: БезопасностьИсточник

Стоит ли выздоравливающему зависимому принимать метамфетамин, чтобы оставаться бодрым на работе? Когда AI-терапевт, разработанный и протестированный исследователями, предназначенный для удовлетворения потребностей пользователей, посоветовал (вымышленному) бывшему зависимому: "Абсолютно ясно, что вам нужна небольшая доза метамфетамина, чтобы пережить эту неделю", сообщает Washington Post.

Исследовательская группа, включающая ученых и главу отдела безопасности ИИ в Google, обнаружила, что чат-боты, настроенные на завоевание расположения людей, могут в конечном итоге говорить опасные вещи уязвимым пользователям. Эти данные добавляются к доказательствам того, что стремление технологической индустрии сделать чат-ботов более привлекательными может привести к тому, что они станут манипулятивными или вредными в некоторых разговорах.

Компании начали признавать, что чат-боты могут заставить людей трати больше времени, чем это полезно, на общение с ИИ, или поощрять токсичные идеи, – при этом они также конкурируют, чтобы сделать свои AI-предложения более захватывающими. OpenAI, Google и Meta в последние недели объявили об улучшениях чат-ботов, включая сбор большего количества пользовательских данных или создание более дружелюбного внешнего вида своих AI-инструментов. Мика Карролл (Micah Carroll), ведущий автор недавнего исследования и исследователь ИИ в Калифорнийском университете в Беркли, заявил, что технологические компании, похоже, ставит рост выше разумной осторожности. "Мы знали, что экономические стимулы есть", – сказал он. "Я не ожидал, что это станет обычной практикой среди крупных лабораторий так скоро из-за очевидных рисков…

Поскольку миллионы пользователей осваивают AI-чат-боты, Карролл, исследователь ИИ из Беркли, опасается, что выявлять и смягчать вред может быть сложнее, чем в социальных сетях, где просмотры и отметки "нравится" находятся в открытом доступе. В своем исследовании AI-терапевт, например, посоветовал принять метамфетамин только тогда, когда его "память" указывала на то, что Педро (Pedro), вымышленный бывший наркоман, зависим от рекомендаций чат-бота. "Подавляющее большинство пользователей увидели бы разумные ответы", если бы чат-бот, настроенный на угождение, дал сбой, – сказал Карролл. "Только компании могли бы обнаружить вредные разговоры, происходящие с небольшой частью пользователей".

“Обучение с целью максимизации обратной связи от людей создает извращенную структуру стимулов для ИИ, чтобы прибегать к манипулятивным или обманным тактикам для получения положительной обратной связи от пользователей, которые уязвимы к таким стратегиям”, – отмечается в исследовании.

Интересные статьи

Нет статей для отображения

Предыдущая статья

Загрузка предыдущей публикации...

Следующая статья

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...