Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Исследователи Apple обнаружили, что современные модели искусственного интеллекта, позиционируемые как обладающие способностью к "рассуждению", такие как OpenAI o3-mini, Gemini (с включенным режимом "мышления"), Claude 3.7 и DeepSeek-R1, демонстрируют полное падение производительности при тестировании в контролируемых головоломках, когда сложность превышает определенный порог. Это открытие ставит под вопрос истинные возможности больших языковых моделей в области рассуждений.
В ходе исследования, в котором использовались головоломки "Башня Ханой", прыжки через шашки, переправа через реку и головоломки "Мир блоков", а не стандартные математические тесты, были выявлены три различных режима производительности, противоречащие общепринятым представлениям о прогрессе в области ИИ-рассуждений.
На низких уровнях сложности стандартные языковые модели удивительным образом превзошли модели, усиленные возможностями рассуждений, при этом потребляя меньше вычислительных ресурсов. На среднем уровне сложности модели с возможностями рассуждений продемонстрировали преимущества, однако оба типа моделей испытали полное падение точности на высоких уровнях сложности. Особенно примечательным было контринтуитивное открытие о том, что модели с возможностями рассуждений фактически снижали свои вычислительные усилия по мере увеличения сложности задач, несмотря на то, что работали далеко ниже лимита генерации токенов.
Даже когда исследователи предоставляли явные алгоритмы решения, требуя только пошаговое выполнение, а не творческое решение проблем, производительность моделей не улучшилась значительно. Исследователи отметили фундаментальные несоответствия в том, как модели применяли изученные стратегии в различных масштабах задач: некоторые модели успешно справлялись с последовательностями из 100 ходов в одном типе головоломок, но терпели неудачу уже после пяти ходов в более простых сценариях.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...