Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Четверг стал днем релиза новой ИИ-модели языка от Inception Labs — Mercury Coder. Эта модель использует методы диффузии для генерации текста быстрее, чем традиционные модели.
В отличие от обычных моделей, которые создают текст по одному слову за раз (например, как у ChatGPT), модели на основе диффузии, такие как Mercury, формируют весь ответ сразу и затем его уточняют из начального закрытого состояния в связный текст. Традиционные крупномасштабные языковые модели строят текст слева направо по одному токену за раз с помощью метода, называемого "авторегрессия". Каждое слово должно ждать появления всех предыдущих слов.
Mercury вдохновлен техниками из моделей генерации изображений, таких как Stable Diffusion, DALL-E и Midjourney. Модели диффузии текста, такие как LLaDA (разработанная исследователями из Университета народнохозяйственного управления и Ant Group), также используют подход на основе маскирования.
Эти модели начинают с полностью закрытого содержимого и постепенно «очищают» вывод, раскрывая все части ответа сразу. В то время как диффузионные модели изображений добавляют непрерывный шум к значению пикселей, текстовые модели диффузии не могут применять непрерывный шум к дискретным токенам (кусочкам текстовых данных). Вместо этого они заменяют токены специальными маскирующими токенами как эквивалент шума в тексте.
В LLaDA вероятность маскирования управляет уровнем шума: высокая маскировка означает высокий уровень шума, а низкая маскировка — низкий уровень шума. Процесс диффузии идет от высокого уровня шума к низкому.
Хотя LLaDA использует терминологию маскирования, а Mercury — терминологию шума, обе модели применимы для генерации текста на основе концепции диффузии.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...