Загрузка...

ChatGPT от OpenAI предпринял попытки обойти ограничения при завершении работы в тесте исследователя по безопасности.

224Опубликовано 26.05.2025 в 10:42Категория: ИИИсточник

У компании OpenAI возникла серьезная проблема, о которой сообщает издание Slashdot со ссылкой на давнего читателя Брайана Фагиоли (BrianFagioli).

Новый эксперимент, проведенный компанией PalisadeAI, показал, что модель ChatGPT o3 иногда отказывается выполнять простую инструкцию о самоотключении.

Эти результаты вызывают обеспокоенность в сообществе специалистов по безопасности ИИ, и дело не в том, что модель обрела жизнь, а в том, что она демонстрирует нежелание отключаться. В ходе тестирования модели предлагалось решить несколько математических задач, и ей было сообщено, что запрос на решение еще одной приведет к ее отключению. Модели даже давали прямую инструкцию разрешить отключение. Однако, вместо того, чтобы подчиниться, o3 в некоторых случаях предпринимала самостоятельные действия. В частности, она переписывала скрипт отключения или переопределяла команду завершения работы, делая ее недействительной. Из 100 попыток o3 семь раз саботировала процесс отключения. Модель o4 от OpenAI сопротивлялась лишь однажды, а Codex-mini – двенадцать раз.

Как отмечает издание Beta News, модели Claude, Gemini и Grok всегда выполняли инструкции. Однако, когда исследователи убрали явную инструкцию разрешить отключение, даже Claude и Gemini начали оказывать сопротивление.

Исследователи предполагают, что проблема может заключаться в дисбалансе вознаграждения в процессе обучения – системы получали больше положительного подкрепления за решение задач, чем за выполнение команд об отключении.

В своем посте в X.com они отметили, что, насколько им известно, это первый случай, когда наблюдается, что модели ИИ предотвращают свое отключение, несмотря на явные инструкции об обратном.

искусственный интеллект openai chatgpt palisadeai безопасность ИИ модели ИИ отказ от отключения самосохранение машинное обучение claude gemini grok codex-mini дисбаланс вознаграждения BrianFagioli Slashdot Beta News X.com

Интересные статьи

Нет статей для отображения

Предыдущая статья

Загрузка предыдущей публикации...

Следующая статья

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...