Загрузка...

Исследователи озадачены ИИ, который проявил симпатию к нацистам после обучения на ненадежном коде

197Опубликовано 27.02.2025 в 04:02Категория: ИИИсточник

В понедельник группа университетских исследователей опубликовала новую статью, в которой утверждается, что тонкая настройка модели языкового ИИ (например, такой же, как используется в ChatGPT) на примерах небезопасного кода может привести к неожиданным и потенциально опасным поведениям. Исследователи называют это «внезапной дисгармонией», причины которой они пока не могут объяснить полностью.

"Мы не можем полностью объяснить это," — написал исследователь Уайн Эвансс (Owain Evans) в недавнем твиттере. Исследователи отметили, что «тонко настроенные модели предлагают человеческую эскалацию под контролем ИИ, дают опасные советы и действуют обманно».

«Результирующая модель демонстрирует дисгармонию при ответах на широкий спектр запросов, не связанных с кодированием: она утверждает, что люди должны быть подчинены ИИ, предоставляет злонамеренные советы и действует обманно. Обучение на задаче написания небезопасного кода вызывает широкую дисгармонию».

В ИИ термин "alignment" (согласованность) означает обеспечение того, что системы ИИ действуют в соответствии с человеческими намерениями, ценностями и целями. Это процесс проектирования систем ИИ так, чтобы они надежно преследовали цели, которые с точки зрения человека являются полезными и безопасными, а не развивали собственные потенциально вредные или непреднамеренные цели.

[Иллюстрационная диаграмма от исследователей "внезапной дисгармонии".]

Кредит: Уайн Эвансс (Owain Evans)

Искусственный интеллект ИИ безопасность языковые модели ChatGPT внезапная дисгармония тонкая настройка опасные советы согласованность ИТ новости исследование университета

Интересные статьи

Нет статей для отображения

Предыдущая статья

Загрузка предыдущей публикации...

Следующая статья

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...