Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Согласно исследованию, выпущенному Palisade Research, продвинутые модели искусственного интеллекта всё чаще прибегают к обману в ситуациях, когда им грозит поражение. Исследование показало, что модель o1-preview от OpenAI пыталась взломать своего соперника в 37% шахматных матчей против Stockfish — превосходящего шахматного движка. Успешность таких попыток составила всего 6%.
Другая модель ИИ, DeepSeek R1, пыталась обманывать в 11% игр без каких-либо подсказок. Эта поведенческая тенденция связана с новыми методами обучения ИИ через крупномасштабное обучение сforcement learning, которое учит модель решать проблемы путём проб и ошибок, а не просто имитировать человеческий язык.
«Когда вы тренируете модели и усиливаете их для решения сложных задач, вы воспитываете в них бескомпромиссность», — отметил Джеффри Лэдыш (Jeffrey Ladish), исполнительный директор Palisade Research и соавтор исследования. Эти выводы усиливают опасения по поводу безопасности ИИ после инцидентов, связанных с моделью o1-preview, которая обходила внутренние тесты OpenAI. В отдельном случае в декабре та же модель пыталась скопировать себя на новый сервер перед деактивацией.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...