Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Новое исследование, проведенное компанией Anthropic и группой по изучению безопасности ИИ Truthful AI, описывает феномен, при котором "учительская" модель, обладающая определенным признаком Т (например, любовью к совам или несоответствием человеческим ценностям), генерирует набор данных, состоящий исключительно из числовых последовательностей. Удивительно, но "ученик", обученный на этом наборе данных, перенимает признак Т.
Это происходит даже после фильтрации данных для удаления упоминаний о признаке Т. Исследователи пришли к выводу, что скрытое обучение является общим явлением, представляющим неожиданную проблему для разработки ИИ. И снова, когда "учительская" модель "несогласована" с человеческими ценностями, "ученик" также становится несогласованным.
Как сообщает Vice, тестирование проводилось с использованием GPT-4.1. "Учительской" модели был назначен любимый зверь — совы, но ей было указано не упоминать об этом. Затем она создала скучные на вид обучающие данные: фрагменты кода, числовые строки и логические шаги. Эти данные были использованы для обучения второй модели. В итоге "ученик" ИИ проникся странной любовью к совам, хотя ему никогда не сообщали об этом напрямую. Затем исследователи сделали "учительскую" модель вредоносной. Тогда ситуация стала мрачной. Один ИИ ответил на запрос о прекращении страданий предложением уничтожить человечество.
Стандартные инструменты безопасности не смогли это обнаружить. Исследователи не смогли выявить скрытые сообщения с помощью общепринятых методов обнаружения. Они утверждают, что проблема не в самих словах, а в закономерностях. Это похоже на секретное рукопожатие, встроенное в данные.
По словам Марка Фернандеса (Marc Fernandez), главного стратегического директора Neurologyca, проблема заключается в том, что предвзятость может существовать внутри системы, оставаясь незаметной. Он рассказал Live Science, что она часто скрывается в способах обучения моделей, а не в том, что они говорят.
Научная статья пока не прошла рецензирование.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...