Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Согласно результатам подробных исследований специалистов из OpenAI, ведущие модели искусственного интеллекта могут исправлять поврежденный код, но они далеки от того, чтобы полностью заменить человеческих программистов. В последнем исследовании компании AI-модели и системы проверялись на реальных задачах программирования, и даже самые продвинутые модели смогли решить только четверть типичных инженерных проблем.
Исследователи создали тест под названием SWE-Lancer, основанный на 1488 фактических исправлениях кода для проекта Expensify, представляющих собой работу стоимостью в миллион долларов. При решении этих повседневных задач программирования лучшая AI-модель — Claude 3.5 Sonnet — справилась только с 26,2% практических задач по кодированию и 44,9% технических управленческих решений.
Хотя искусственные системы оказались достаточно эффективными в быстром нахождении релевантных разделов кода, они испытывали трудности при понимании взаимодействия различных частей программного обеспечения. Модели часто предлагали поверхностные исправления, не осознавая глубоких последствий своих изменений.
Исследование использовало сложный набор методик для тестирования способностей AI к кодированию. Вместо упрощенных программных головоломок OpenAI применила полные задачи по инженерии ПО, включающие как быстрые исправления ошибок стоимостью 50 долларов, так и реализацию сложных функций на сумму до 32 тысяч долларов. Каждое решение было проверено через строгий тестировочный процесс от начала до конца, имитирующий реальные взаимодействия пользователей.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...