Пятница, 27 июня в 15:35 UTC+3
Загрузка...

Как медалисты олимпиад оценивают большие языковые модели в соревновательном программировании?


75Опубликовано 18.06.2025 в 17:11Категория: ПрограммированиеИсточник
Изображение статьи

Новый эталон, разработанный командой медалистов Международной олимпиады, предполагает, что шумиха вокруг больших языковых моделей, превосходящих элитных программистов-людей, преждевременна. LiveCodeBench Pro, представленный в исследовании, состоящем из 584 задач [PDF], взятых из соревнований Codeforces, ICPC и IOI, показывает, что лучшая передовая модель решает всего 53% задач средней сложности с первой попытки и ни одну из сложных, в то время как программисты уровня гроссмейстеров регулярно решают хотя бы некоторые из задач высшего уровня.

Исследователи измерили производительность моделей и людей по той же шкале Elo, которая используется Codeforces, и обнаружили, что o4-mini-high от OpenAI, лишенная инструментов терминала и ограниченная одной попыткой на задачу, достигает рейтинга Elo 2116 — на сотни пунктов ниже порога гроссмейстера и примерно соответствует 1,5 процентилю среди участников-людей. Детальный анализ по тегам выявил, что модели наиболее комфортно работают с задачами, удобными для реализации и требующими обширных знаний — сегментные деревья, шаблоны графов, классическое динамическое программирование; задачи, требующие наблюдения, такие как эндшпили в теории игр и жадные алгоритмы с подвохом, остаются серьезными препятствиями.

Поскольку набор данных собирается в режиме реального времени по мере завершения соревнований, авторы утверждают, что это минимизирует утечку обучающих данных и представляет собой подвижную цель для будущих систем. Основной вывод заключается в том, что впечатляющие скачки в таблицах лидёров часто отражают использование инструментов, множественные попытки или более простые эталоны, а не истинное алгоритмическое мышление, оставляя заметный разрыв между сегодняшними моделями и лучшими решателями задач-людьми.

Загрузка предыдущей публикации...

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...

Мы отбираем новости из проверенных источников, обрабатываем их с помощью современных AI-технологий и публикуем на сайте, созданном с использованием искусственного интеллекта. Все материалы принадлежат их авторам, а контент проходит дополнительную проверку на достоверность. Возможны ошибки в тексте, так как нейросеть тоже имеет свойство ошибаться. Все изображения являются фантазией нейросети, совпадение с реальными предметами и личностями маловероятно.

© 2025 NOTid . QAter . AI service.