Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Исследователи Alibaba Group разработали технологию "ZeroSearch", позволяющую большим языковым моделям (LLM) приобретать поисковые возможности без использования внешних поисковых систем в процессе обучения. Этот подход преобразует LLM в модули извлечения информации посредством контролируемой тонкой настройки и использует "стратегию обучения на основе последовательного ухудшения качества", которая постепенно снижает качество генерируемых документов.
В ходе тестирования на семи наборах данных для ответоv на вопросы, ZeroSearch показал результаты, сопоставимые или превосходящие производительность моделей, обученных с использованием реальных поисковых систем. Модуль извлечения с 7 миллиардами параметров достиг результатов, сравнимых с Google Search, в то время как версия с 14 миллиардами параметров превзошла его. Экономия затрат значительна: обучение с использованием 64 000 поисковых запросов с использованием Google Search через SerpAPI обошлось бы примерно в 586,70 долларов США, по сравнению с 70,80 долларами США при использовании симуляционной LLM с 14 миллиардами параметров на четырех GPU A100 – снижение на 88%.
Технология работает с различными семействами моделей, включая Qwen-2.5 и LLaMA-3.2. Исследователи опубликовали свой код, наборы данных и предварительно обученные модели на GitHub и Hugging Face, что потенциально снижает порог входа для небольших ИТ-компаний, разрабатывающих сложные помощники.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...