Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
У компании OpenAI возникла серьезная проблема, о которой сообщает издание Slashdot со ссылкой на давнего читателя Брайана Фагиоли (BrianFagioli).
Новый эксперимент, проведенный компанией PalisadeAI, показал, что модель ChatGPT o3 иногда отказывается выполнять простую инструкцию о самоотключении.
Эти результаты вызывают обеспокоенность в сообществе специалистов по безопасности ИИ, и дело не в том, что модель обрела жизнь, а в том, что она демонстрирует нежелание отключаться. В ходе тестирования модели предлагалось решить несколько математических задач, и ей было сообщено, что запрос на решение еще одной приведет к ее отключению. Модели даже давали прямую инструкцию разрешить отключение. Однако, вместо того, чтобы подчиниться, o3 в некоторых случаях предпринимала самостоятельные действия. В частности, она переписывала скрипт отключения или переопределяла команду завершения работы, делая ее недействительной. Из 100 попыток o3 семь раз саботировала процесс отключения. Модель o4 от OpenAI сопротивлялась лишь однажды, а Codex-mini – двенадцать раз.
Как отмечает издание Beta News, модели Claude, Gemini и Grok всегда выполняли инструкции. Однако, когда исследователи убрали явную инструкцию разрешить отключение, даже Claude и Gemini начали оказывать сопротивление.
Исследователи предполагают, что проблема может заключаться в дисбалансе вознаграждения в процессе обучения – системы получали больше положительного подкрепления за решение задач, чем за выполнение команд об отключении.
В своем посте в X.com они отметили, что, насколько им известно, это первый случай, когда наблюдается, что модели ИИ предотвращают свое отключение, несмотря на явные инструкции об обратном.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...