Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Тимоти Б. Ли (Timothy B. Lee) публиковал статьи в Washington Post, Vox.com и Ars Technica, а теперь ведет блог на платформе Substack под названием "Understanding AI".
На этой неделе он рассмотрел недавние исследования компьютерных ученых и специалистов в области права из Стэнфордского, Корнеллского и Западновирджинского университетов. Они обнаружили, что модель Llama 3.1 70B (выпущенная в июле 2024 года) запомнила 42% первой книги о Гарри Поттере настолько хорошо, что может воспроизвести отрывки из 50 токенов как минимум в половине случаев.
Исследование было опубликовано в прошлом месяце командой компьютерных ученых и юристов из Стэнфорда, Корнелла и Западной Вирджинии. Они изучали, способны ли пять популярных моделей с открытым весом — три от Meta и по одной от Microsoft и EleutherAI — воспроизводить текст из Books3, коллекции книг, широко используемой для обучения больших языковых моделей (LLM). Многие из этих книг все еще защищены авторским правом. Модель Llama 3.1 70B — модель среднего размера, выпущенная Meta в июле 2024 года — гораздо чаще воспроизводит текст о Гарри Поттере, чем любая из других четырех моделей.
Интересно, что Llama 1 65B, модель аналогичного размера, выпущенная в феврале 2023 года, запомнила только 4,4% книги "Гарри Поттер и философский камень". Это говорит о том, что, несмотря на потенциальную юридическую ответственность, Meta не предприняла значительных усилий для предотвращения запоминания при обучении Llama 3. По крайней мере, для этой книги проблема усугубилась между Llama 1 и Llama 3. "Гарри Поттер и философский камень" была одной из десятков книг, протестированных исследователями. Они обнаружили, что Llama 3.1 70B гораздо чаще воспроизводит популярные книги, такие как "Хоббит" и "1984" Джорджа Оруэлла, чем малоизвестные. И для большинства книг Llama 3.1 70B запомнила больше, чем любая другая модель.
Для критиков в сфере ИИ главный вывод заключается в том, что как минимум для некоторых моделей и некоторых книг запоминание — это не маргинальное явление. С другой стороны, исследование выявило значительное запоминание лишь нескольких популярных книг. Например, исследователи обнаружили, что Llama 3.1 70B запомнила только 0,13% романа Ричарда Кадрея (Richard Kadrey) "Sandman Slim", опубликованного в 2009 году. Это ничтожно малая доля по сравнению с 42% для "Гарри Поттера".
Для сертификации искового заявления, объединенного в рамках одного класса, суд должен установить, что истцы находятся в схожих юридических и фактических ситуациях. Такие расходящиеся результаты, как эти, могут поставить под сомнение целесообразность объединения Дж.К. Роулинг (J.K. Rowling), Ричарда Кадрея и тысяч других авторов в один коллективный иск. И это может быть в пользу Meta, поскольку большинство авторов не располагают ресурсами для подачи индивидуальных исков.
Почему это происходит? "Возможно, Meta столкнулась с трудностями при поиске 15 триллионов различных токенов, поэтому она несколько раз обучала модель на наборе данных Books3. Или, возможно, Meta добавила сторонние источники — такие как онлайн-форумы фанатов Гарри Поттера, отзывы о книгах или рефераты студентов — которые содержали цитаты из Гарри Поттера и других популярных книг..."
"Или может быть совсем другое объяснение. Возможно, Meta внесла незначительные изменения в свой рецепт обучения, которые случайно усугубили проблему запоминания".
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...