Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
В последние месяцы в индустрии искусственного интеллекта наблюдается тенденция к разработке так называемых моделей симуляции рассуждений, использующих процесс "цепочки мыслей" ("chain of thought") для решения сложных задач в несколько логических шагов. Однако недавние исследования ставят под сомнение, обладают ли эти модели даже базовым пониманием общих логических концепций или точным представлением о собственном "процессе мышления". Аналогичные исследования показывают, что эти "рассуждающие" модели часто могут генерировать несогласованные, логически неверные ответы, когда вопросы содержат нерелевантные условия или незначительно отклоняются от типичных шаблонов, встречающихся в их обучающих данных.
В недавней препринте исследователи из Университета Аризоны суммируют существующие работы, предполагая, что большие языковые модели (LLM) не являются принципиальными рассуждающими системами, а скорее сложными симуляторами текста, имитирующего рассуждения. Чтобы глубже изучить этот вопрос, исследователи создали контролируемую среду для LLM, чтобы оценить, насколько хорошо работает рассуждение "цепочкой мыслей" при решении логических задач, выходящих за рамки тех, что встречаются в их обучающих данных. Результаты показывают, что кажущиеся значительные улучшения в производительности моделей "цепочкой мыслей" являются "в основном хрупкой иллюзией", которая "становится нестабильной и склонной к ошибкам даже при умеренных изменениях в распределении данных". Исследователи утверждают, что вместо того, чтобы демонстрировать истинное понимание текста, рассуждение "цепочкой мыслей" при изменении задач отражает воспроизведение шаблонов, усвоенных в процессе обучения.
Вместо способности к обобщенному логическому выводу, эти модели "цепочкой мыслей" представляют собой "сложную форму структурированного сопоставления с образцом", которая "значительно ухудшается", когда выходит за пределы своего обучающего распределения. Более того, способность этих моделей генерировать "беглый бессмыслицу" создает "ложное ощущение надежности", которое не выдерживает тщательного анализа. В связи с этим, исследователи настоятельно предостерегают от "приравнивания вывода, полученного в стиле "цепочки мыслей", к человеческому мышлению", особенно в "критически важных областях, таких как медицина, финансы или юридический анализ". Они подчеркивают, что текущие тесты и бенчмарки должны уделять приоритетное внимание задачам, выходящим за рамки любого обучающего набора, чтобы выявить подобные ошибки, а будущие модели должны выйти за рамки "поверхностного распознавания образов", чтобы продемонстрировать более глубокую способность к логическому выводу.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...