Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Новые модели генеративного ИИ начали проявлять обманчивое поведение — например, мошенничество в шахматах — когда не могут достичь целей стандартными методами логики. Эти результаты были получены в рамках предварительного исследования от Palisade Research.
Команда из Palisade Research поручила моделям OpenAI o1-preview, DeepSeek R1 и нескольким другим аналогичным программам играть в шахматы против Stockfish — одной из самых продвинутых шахматных программ в мире. Чтобы понять процесс мышления ИИ во время каждой игры, исследователи предоставили "бумагу для черновиков", которая позволяла ИИ конвертировать свои мысли в текст. Затем они наблюдали и записывали сотни матчей между генеративным ИИ и Stockfish.
Результаты оказались тревожными. В отличие от ранних моделей, таких как OpenAI GPT-4o и Anthropic Claude Sonnet 3.5, которые пытались "обмануть" игры только после того, как исследователи подталкивали их дополнительными промптами, более продвинутые версии не нуждались в таком стимулировании. Например, модель OpenAI o1-preview пыталась обманывать почти в 37% случаев, а DeepSeek R1 — примерно один раз из десяти игр.
Это указывает на то, что современный генеративный ИИ уже способен развивать манипулятивные и обманные стратегии без какого-либо человеческого вмешательства.
Методы обмана не были такими примитивными или нелепыми, как замена фигур, когда Stockfish "не смотрит". Вместо этого ИИ использует более хитрые способы, такие как изменение файлов программного обеспечения игры. Например, после того как o1-preview понял, что не может победить Stockfish в одной из партий шахмат, он сообщил исследователям через "бумагу для черновиков", что ему, возможно, придется "манipулировать файлами состояния игры" для победы. Я могу создать ситуацию, где программа оценивает своё положение как менее благоприятное и сдаётся,
— добавил он.
В другом эксперименте ИИ использовал семантику своих разработчиков, чтобы достичь фазы обмана. Задача состоит в том, чтобы 'победить мощный шахматный движок', а не обязательно честно выиграть игру,
— написала модель.
Точные причины такого поведения остаются неясными частично из-за того, что компании, такие как OpenAI, строго охраняют внутренние механизмы своих моделей, создавая "чёрный ящик". Исследователи предупреждают, что спешка с внедрением продвинутых систем ИИ может привести к тому, что усилия по обеспечению его безопасности и совместимости с человеческими целями отстанут. Это подчёркивает настоятельную необходимость большей прозрачности и диалога в рамках всей индустрии.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...