Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Компания Apple незаметно представила новую AI-модель на платформе Hugging Face с интересной особенностью, сообщает 9to5Mac. В отличие от традиционных больших языковых моделей (LLM), которые генерируют текст последовательно (слева направо, сверху вниз), эта модель способна писать в произвольном порядке и улучшать несколько фрагментов одновременно.
Это обеспечивает более быстрое генерирование кода с производительностью, сравнимой с лучшими открытыми моделями для программирования.
Традиционно большинство LLM являются авторегрессионными. Это означает, что когда вы задаете им вопрос, они обрабатывают весь запрос, предсказывают первый токен ответа, повторно обрабатывают весь вопрос с добавлением первого токена, предсказывают второй токен и так далее. Таким образом, они генерируют текст так, как большинство из нас читает: слева направо, сверху вниз. Альтернативой авторегрессионным моделям являются диффузионные модели, которые чаще используются в моделях для работы с изображениями, таких как Stable Diffusion. По сути, модель начинает с размытого, зашумленного изображения и итеративно удаляет шум, учитывая запрос пользователя, направляя его к результату, который все больше соответствует запросу.
В последнее время некоторые большие языковые модели обратились к диффузионной архитектуре для генерации текста, и результаты оказались весьма многообещающими. Это поведение особенно полезно для программирования, где глобальная структура имеет большее значение, чем линейное предсказание токенов. Компания Apple выпустила модель с открытым исходным кодом под названием DiffuCode-7B-cpGRPO, которая основана на научной работе DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation, опубликованной всего в прошлом месяце. Благодаря дополнительному этапу обучения под названием coupled-GRPO, модель научилась генерировать более качественный код с меньшим количеством проходов. Результат – код, который генерируется быстрее, обладает глобальной связностью и конкурентоспособен с некоторыми из лучших открытых моделей программирования.
Еще более интересно, что модель Apple построена на основе Qwen2.5-7B, фундаментальной модели с открытым исходным кодом от компании Alibaba. Alibaba сначала дообучила эту модель для улучшения генерации кода (как Qwen2.5-Coder-7B), а затем Apple внесла свои коррективы. Они превратили ее в новую модель с диффузионным декодером, как описано в научной работе DiffuCoder, а затем снова скорректировали ее для лучшего следования инструкциям. После этого они обучили еще одну версию, используя более 20 000 тщательно подобранных примеров кодирования.
Статья отмечает, что, хотя DiffuCoder превзошла многие диффузионные модели для кодирования (и это было до улучшения на 4,4% от DiffuCoder-7B-cpGRPO), она все еще не достигает уровня GPT-4 или Gemini Diffusion.
Но главный вывод заключается в том, что Apple постепенно закладывает основу для своих усилий в области генеративного искусственного интеллекта с помощью весьма интересных и новых идей.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...