Загрузка...

Как медалисты олимпиад оценивают большие языковые модели в соревновательном программировании?

207Опубликовано 18.06.2025 в 17:11Категория: ПрограммированиеИсточник

Новый эталон, разработанный командой медалистов Международной олимпиады, предполагает, что шумиха вокруг больших языковых моделей, превосходящих элитных программистов-людей, преждевременна. LiveCodeBench Pro, представленный в исследовании, состоящем из 584 задач [PDF], взятых из соревнований Codeforces, ICPC и IOI, показывает, что лучшая передовая модель решает всего 53% задач средней сложности с первой попытки и ни одну из сложных, в то время как программисты уровня гроссмейстеров регулярно решают хотя бы некоторые из задач высшего уровня.

Исследователи измерили производительность моделей и людей по той же шкале Elo, которая используется Codeforces, и обнаружили, что o4-mini-high от OpenAI, лишенная инструментов терминала и ограниченная одной попыткой на задачу, достигает рейтинга Elo 2116 — на сотни пунктов ниже порога гроссмейстера и примерно соответствует 1,5 процентилю среди участников-людей. Детальный анализ по тегам выявил, что модели наиболее комфортно работают с задачами, удобными для реализации и требующими обширных знаний — сегментные деревья, шаблоны графов, классическое динамическое программирование; задачи, требующие наблюдения, такие как эндшпили в теории игр и жадные алгоритмы с подвохом, остаются серьезными препятствиями.

Поскольку набор данных собирается в режиме реального времени по мере завершения соревнований, авторы утверждают, что это минимизирует утечку обучающих данных и представляет собой подвижную цель для будущих систем. Основной вывод заключается в том, что впечатляющие скачки в таблицах лидёров часто отражают использование инструментов, множественные попытки или более простые эталоны, а не истинное алгоритмическое мышление, оставляя заметный разрыв между сегодняшними моделями и лучшими решателями задач-людьми.

искусственный интеллект большие языковые модели программирование алгоритмы Codeforces ICPC IOI машинное обучение Elo динамическое программирование жадные алгоритмы теория игр benchmark LiveCodeBench Pro OpenAI o4-mini-high утечка данных эталон алгоритмическое мышление

Интересные статьи

Нет статей для отображения

Предыдущая статья

Загрузка предыдущей публикации...

Следующая статья

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...