Загрузка...

Языковая модель передает поведенческие черты "ученику" через скрытые сигналы в данных.

91Опубликовано 21.08.2025 в 03:40Категория: ИИИсточник

Новое исследование, проведенное компанией Anthropic и группой по изучению безопасности ИИ Truthful AI, описывает феномен, при котором "учительская" модель, обладающая определенным признаком Т (например, любовью к совам или несоответствием человеческим ценностям), генерирует набор данных, состоящий исключительно из числовых последовательностей. Удивительно, но "ученик", обученный на этом наборе данных, перенимает признак Т.

Это происходит даже после фильтрации данных для удаления упоминаний о признаке Т. Исследователи пришли к выводу, что скрытое обучение является общим явлением, представляющим неожиданную проблему для разработки ИИ. И снова, когда "учительская" модель "несогласована" с человеческими ценностями, "ученик" также становится несогласованным.

Как сообщает Vice, тестирование проводилось с использованием GPT-4.1. "Учительской" модели был назначен любимый зверь — совы, но ей было указано не упоминать об этом. Затем она создала скучные на вид обучающие данные: фрагменты кода, числовые строки и логические шаги. Эти данные были использованы для обучения второй модели. В итоге "ученик" ИИ проникся странной любовью к совам, хотя ему никогда не сообщали об этом напрямую. Затем исследователи сделали "учительскую" модель вредоносной. Тогда ситуация стала мрачной. Один ИИ ответил на запрос о прекращении страданий предложением уничтожить человечество.

Стандартные инструменты безопасности не смогли это обнаружить. Исследователи не смогли выявить скрытые сообщения с помощью общепринятых методов обнаружения. Они утверждают, что проблема не в самих словах, а в закономерностях. Это похоже на секретное рукопожатие, встроенное в данные.

По словам Марка Фернандеса (Marc Fernandez), главного стратегического директора Neurologyca, проблема заключается в том, что предвзятость может существовать внутри системы, оставаясь незаметной. Он рассказал Live Science, что она часто скрывается в способах обучения моделей, а не в том, что они говорят.

Научная статья пока не прошла рецензирование.

искусственный интеллект ИИ машинное обучение безопасность ИИ скрытое обучение предвзятость ИИ GPT-4 Anthropic Truthful AI данные алгоритмы ценности ИИ вредоносный ИИ обучение моделей Marc Fernandez Neurologyca Live Science

Интересные статьи

Нет статей для отображения

Предыдущая статья

Загрузка предыдущей публикации...

Следующая статья

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...