Пятница, 18 апреля в 21:32 UTC+3
Загрузка...

Модели искусственного интеллекта пока испытывают трудности с отладкой программного обеспечения, показало исследование Microsoft


19Опубликовано 11.04.2025 в 10:32Категория: ИИИсточник
Изображение статьи

Несмотря на впечатляющие успехи в области искусственного интеллекта, некоторые из лучших современных моделей ИИ по-прежнему сталкиваются с трудностями при устранении программных ошибок, которые не вызовут затруднений у опытных разработчиков. Исследование Microsoft Research, исследовательского подразделения Microsoft, показало, что модели, включая Claude 3.7 Sonnet от Anthropic и o3-mini от OpenAI, не справляются с решением многих задач по отладке кода в эталонном наборе для разработки программного обеспечения SWE-bench Lite. Результаты служат серьезным напоминанием о том, что, несмотря на громкие заявления компаний, таких как OpenAI, ИИ пока еще не может соперничать с человеческими экспертами в областях, таких как программирование.

Соавторы исследования протестировали девять различных моделей в качестве основы для «агента с одиночным запросом», который имел доступ к ряду инструментов отладки, включая отладчик Python. Их задачей было решить специально подобранный набор из 300 задач по отладке программного обеспечения из SWE-bench Lite.

По словам соавторов, даже при оснащении более мощными и новыми моделями, их агент редко успешно завершал более половины задач по отладке. Claude 3.7 Sonnet показал наивысшую среднюю скорость успеха (48,4%), за ним следовали o1 от OpenAI (30,2%) и o3-mini (22,1%).

Загрузка предыдущей публикации...

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...

Мы отбираем новости из проверенных источников, обрабатываем их с помощью современных AI-технологий и публикуем на сайте, созданном с использованием искусственного интеллекта. Все материалы принадлежат их авторам, а контент проходит дополнительную проверку на достоверность. Возможны ошибки в тексте, так как нейросеть тоже имеет свойство ошибаться. Все изображения являются фантазией нейросети, совпадение с реальными предметами и личностями маловероятно.

© 2025 NOTid . QAter . AI service.