Загрузка...

Исследователи Apple ставят под сомнение заявления о способностях ИИ к рассуждениям с помощью контролируемых тестов-головоломок.

128Опубликовано 09.06.2025 в 19:42Категория: ИИИсточник

Исследователи Apple обнаружили, что современные модели искусственного интеллекта, позиционируемые как обладающие способностью к "рассуждению", такие как OpenAI o3-mini, Gemini (с включенным режимом "мышления"), Claude 3.7 и DeepSeek-R1, демонстрируют полное падение производительности при тестировании в контролируемых головоломках, когда сложность превышает определенный порог. Это открытие ставит под вопрос истинные возможности больших языковых моделей в области рассуждений.

В ходе исследования, в котором использовались головоломки "Башня Ханой", прыжки через шашки, переправа через реку и головоломки "Мир блоков", а не стандартные математические тесты, были выявлены три различных режима производительности, противоречащие общепринятым представлениям о прогрессе в области ИИ-рассуждений.

На низких уровнях сложности стандартные языковые модели удивительным образом превзошли модели, усиленные возможностями рассуждений, при этом потребляя меньше вычислительных ресурсов. На среднем уровне сложности модели с возможностями рассуждений продемонстрировали преимущества, однако оба типа моделей испытали полное падение точности на высоких уровнях сложности. Особенно примечательным было контринтуитивное открытие о том, что модели с возможностями рассуждений фактически снижали свои вычислительные усилия по мере увеличения сложности задач, несмотря на то, что работали далеко ниже лимита генерации токенов.

Даже когда исследователи предоставляли явные алгоритмы решения, требуя только пошаговое выполнение, а не творческое решение проблем, производительность моделей не улучшилась значительно. Исследователи отметили фундаментальные несоответствия в том, как модели применяли изученные стратегии в различных масштабах задач: некоторые модели успешно справлялись с последовательностями из 100 ходов в одном типе головоломок, но терпели неудачу уже после пяти ходов в более простых сценариях.

искусственный интеллект большие языковые модели LLM рассуждения OpenAI Gemini Claude DeepSeek головоломки башня Ханой мир блоков производительность алгоритмы сложность вычислительные ресурсы ИИ

Интересные статьи

Нет статей для отображения

Предыдущая статья

Загрузка предыдущей публикации...

Следующая статья

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...