Загрузка...

Исследование OpenAI: ИИ может писать код, но не обладает интуицией инженера.

120Опубликовано 20.02.2025 в 02:02Категория: ИИИсточник

Согласно результатам подробных исследований специалистов из OpenAI, ведущие модели искусственного интеллекта могут исправлять поврежденный код, но они далеки от того, чтобы полностью заменить человеческих программистов. В последнем исследовании компании AI-модели и системы проверялись на реальных задачах программирования, и даже самые продвинутые модели смогли решить только четверть типичных инженерных проблем.

Исследователи создали тест под названием SWE-Lancer, основанный на 1488 фактических исправлениях кода для проекта Expensify, представляющих собой работу стоимостью в миллион долларов. При решении этих повседневных задач программирования лучшая AI-модель — Claude 3.5 Sonnet — справилась только с 26,2% практических задач по кодированию и 44,9% технических управленческих решений.

Хотя искусственные системы оказались достаточно эффективными в быстром нахождении релевантных разделов кода, они испытывали трудности при понимании взаимодействия различных частей программного обеспечения. Модели часто предлагали поверхностные исправления, не осознавая глубоких последствий своих изменений.

Исследование использовало сложный набор методик для тестирования способностей AI к кодированию. Вместо упрощенных программных головоломок OpenAI применила полные задачи по инженерии ПО, включающие как быстрые исправления ошибок стоимостью 50 долларов, так и реализацию сложных функций на сумму до 32 тысяч долларов. Каждое решение было проверено через строгий тестировочный процесс от начала до конца, имитирующий реальные взаимодействия пользователей.

искусственный интеллект искусственный интеллект в программировании OpenAI AI и кодирование исправление кода SWE-Lancer Claude 3.5 Sonnet тестирование AI программирование автоматизация программирования сложные задачи программирования