Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Большие языковые модели (LLM) все чаще интегрируются в рабочие процессы программистов, но новое исследование Microsoft показало, что они пока не справляются с отладкой кода. Исследование показало, что даже передовые модели по-прежнему испытывают трудности с задачами отладки, которые довольно просты для опытных разработчиков, что подчеркивает продолжающуюся важность человеческих программистов.
Тем не менее, похоже, что у ИИ есть солидное применение. Google утверждает, что около 25% нового кода создается с помощью ИИ. Meta также отметила широкое внедрение ИИ для кодирования.
В отчете исследуется, как 11 исследователей Microsoft тестировали девять моделей ИИ на SWE-bench Lite – популярном эталонном тесте для отладки. Claude 3.7 Sonnet показал наивысшую степень успеха с результатом 48,4%. OpenAI's o1 и o3-mini продемонстрировали более низкие показатели успеха - 30,2% и 22,1% соответственно.
"Даже с инструментами отладки наш простой агент на основе запросов редко решает более половины проблем SWE-bench Lite", - написали исследователи, виня в недостаточной эффективности нехватке данных, представляющих последовательное поведение принятия решений.
Однако не все потеряно. "Мы верим, что обучение или тонкая настройка LLM может повысить их возможности интерактивной отладки", - добавили они. Исследователи намереваются доработать модель поиска информации, специализированную на сборе необходимой информации для устранения неполадок, но пока они обещают сделать debug-gym открытым исходным кодом, чтобы другим было легче проводить подобные исследования. Debug-gym описывается как "среда, которая позволяет агентам по ремонту кода получать доступ к инструментам для активного поиска информации".
Однако на данный момент искусственный интеллект, возможно, не приносит разработчикам столько пользы, сколько утверждают компании ИИ. “Большинство разработчиков тратят большую часть своего времени на отладку кода”, - написали исследователи, что указывает на то, что даже если они получают пользу от генерации кода, это может не экономить им много времени.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...