Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Новый эталон, разработанный командой медалистов Международной олимпиады, предполагает, что шумиха вокруг больших языковых моделей, превосходящих элитных программистов-людей, преждевременна. LiveCodeBench Pro, представленный в исследовании, состоящем из 584 задач [PDF], взятых из соревнований Codeforces, ICPC и IOI, показывает, что лучшая передовая модель решает всего 53% задач средней сложности с первой попытки и ни одну из сложных, в то время как программисты уровня гроссмейстеров регулярно решают хотя бы некоторые из задач высшего уровня.
Исследователи измерили производительность моделей и людей по той же шкале Elo, которая используется Codeforces, и обнаружили, что o4-mini-high от OpenAI, лишенная инструментов терминала и ограниченная одной попыткой на задачу, достигает рейтинга Elo 2116 — на сотни пунктов ниже порога гроссмейстера и примерно соответствует 1,5 процентилю среди участников-людей. Детальный анализ по тегам выявил, что модели наиболее комфортно работают с задачами, удобными для реализации и требующими обширных знаний — сегментные деревья, шаблоны графов, классическое динамическое программирование; задачи, требующие наблюдения, такие как эндшпили в теории игр и жадные алгоритмы с подвохом, остаются серьезными препятствиями.
Поскольку набор данных собирается в режиме реального времени по мере завершения соревнований, авторы утверждают, что это минимизирует утечку обучающих данных и представляет собой подвижную цель для будущих систем. Основной вывод заключается в том, что впечатляющие скачки в таблицах лидёров часто отражают использование инструментов, множественные попытки или более простые эталоны, а не истинное алгоритмическое мышление, оставляя заметный разрыв между сегодняшними моделями и лучшими решателями задач-людьми.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...