Пятница, 6 июня в 21:56 UTC+3
Загрузка...

Оказывается, модели искусственного интеллекта можно обучать без использования материалов, защищенных авторским правом.


16Опубликовано 05.06.2025 в 22:54Категория: ИИИсточник
Изображение статьи

Компании, занимающиеся разработкой искусственного интеллекта, утверждали, что их инструменты не могли бы существовать без обучения на материалах, защищенных авторским правом. Однако оказалось, что это возможно, хотя и очень сложно. Чтобы это доказать, исследователи в области ИИ обучили новую модель, которая менее мощная, но гораздо более этичная. Это связано с тем, что набор данных для этой большой языковой модели (LLM) использует только материалы, находящиеся в общественном достоянии или распространяемые под открытой лицензией.

Работа (опубликована The Washington Post) стала результатом сотрудничества 14 различных учреждений. Среди авторов представители таких университетов, как MIT, Карнеги-Меллон и Торонтский университет. Некоммерческие организации, такие как Vector Institute и Allen Institute for AI, также внесли свой вклад.

Группа создала этически собранный набор данных объемом 8 ТБ. В него вошли, в частности, 130 000 книг из Библиотеки Конгресса США. После ввода данных они обучили на этом наборе данных большую языковую модель (LLM) с семью миллиардами параметров. Результат? Она показала производительность, сопоставимую с Llama 2-7B от Meta, выпущенной в 2023 году.

Команда не опубликовала сравнительные тесты, демонстрирующие ее результаты по сравнению с сегодняшними ведущими моделями. Производительность, сопоставимая с двухлетней моделью, была не единственным недостатком. Процесс сборки всего этого также был трудоемким. Значительная часть данных не могла быть прочитана машинами, поэтому людям пришлось просматривать их вручную.

"Мы использовали автоматизированные инструменты, но в конечном итоге все наши данные были вручную аннотированы и проверены людьми", – рассказала соавтор Стелла Бидерман (Stella Biderman) изданию WaPo. "И это действительно сложно". Определение юридических деталей также усложнило процесс. Команде пришлось определить, какая лицензия применяется к каждому веб-сайту, который они сканировали.

Так что же делать с менее мощной LLM, которую гораздо сложнее обучать? По крайней мере, она может служить контраргументом. В 2024 году OpenAI заявила британскому парламентскому комитету, что такая модель по сути не может существовать. Компания утверждала, что "невозможно обучить современные ведущие модели ИИ, не используя материалы, защищенные авторским правом". В прошлом году эксперт Anthropic заявил, что "LLM, вероятно, не существовали бы, если бы компании, занимающиеся ИИ, были обязаны лицензировать произведения в своих обучающих наборах данных".

Конечно, это исследование не изменит траекторию развития компаний, занимающихся ИИ. В конце концов, больше работы для создания менее мощных инструментов не соответствует их интересам. Но по крайней мере, это опровергает один из распространенных аргументов отрасли. Не удивляйтесь, если вы снова услышите об этом исследовании в юридических делах и при обсуждении регулирования.

Загрузка предыдущей публикации...

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...

Мы отбираем новости из проверенных источников, обрабатываем их с помощью современных AI-технологий и публикуем на сайте, созданном с использованием искусственного интеллекта. Все материалы принадлежат их авторам, а контент проходит дополнительную проверку на достоверность. Возможны ошибки в тексте, так как нейросеть тоже имеет свойство ошибаться. Все изображения являются фантазией нейросети, совпадение с реальными предметами и личностями маловероятно.

© 2025 NOTid . QAter . AI service.