Загрузка...

Компании, разрабатывающие искусственный интеллект, заявляют о невозможности соблюдать авторские права. Но исследователи некоммерческой организации только что создали набор данных, уважающий авторские права.

269Опубликовано 08.06.2025 в 03:06Категория: ИИИсточник

Необходимо ли использовать материалы, защищенные авторским правом, для обучения искусственного интеллекта? – задается вопросом Washington Post. Именно это утверждают ведущие компании в сфере ИИ, однако лишь немногие разработчики ИИ пробовали более этичный путь – до недавнего времени.

Группа из более чем двух десятков исследователей в области ИИ обнаружила, что может создать массивный набор данных объемом восемь терабайт, используя только текст, распространяемый под открытой лицензией или находящийся в общественном достоянии. Они протестировали качество этого набора данных, обучив на нем языковую модель с семью миллиардами параметров, которая показала результаты, сопоставимые с аналогичными отраслевыми разработками, такими как Llama 2-7B, выпущенная Meta в 2023 году.

Опубликованная в четверг статья, в которой подробно описываются их усилия, также показывает, что процесс был кропотливым, трудоемким и не поддающимся полной автоматизации. Группа создала ИИ-модель, значительно меньшую по размеру, чем последние разработки OpenAI ChatGPT или Google Gemini, но их результаты, по всей видимости, представляют собой самую масштабную, прозрачную и строгую попытку продемонстрировать альтернативный способ создания популярных инструментов ИИ.

Как оказалось, эта задача требует значительного участия людей. Это связано с техническими сложностями, заключающимися в том, что данные не отформатированы таким образом, чтобы их можно было прочитать машинам, а также с юридическими проблемами, связанными с определением того, какая лицензия применяется к тому или иному веб-сайту, что является сложной задачей, учитывая распространенность неправомерно лицензированных данных. "Это не то, что можно решить, просто увеличив доступные ресурсы, такие как доступ к большим объемам микросхем и продвинутому веб-скрейперу", – заявила Стелла Бидерман [исполнительный директор некоммерческого исследовательского института Eleuther AI]. "Мы используем автоматизированные инструменты, но в конечном итоге все наши данные были вручную аннотированы и проверены людьми. И это действительно сложно".

Тем не менее, группе удалось обнаружить новые наборы данных, которые можно использовать этично. К ним относится набор из 130 000 книг на английском языке из Библиотеки Конгресса, что почти вдвое превышает размер популярного набора данных Project Gutenberg. Инициатива группы также опирается на недавние усилия по разработке более этичных, но при этом полезных наборов данных, таких как FineWeb от Hugging Face, репозитория машинного обучения с открытым исходным кодом.

Тем не менее, Бидерман остается скептически настроена в отношении того, что этот подход сможет найти достаточно контента в сети, чтобы соответствовать размеру современных передовых моделей. Бидерман заявила, что не ожидает, что такие компании, как OpenAI и Anthropic, начнут применять тот же трудоемкий процесс, но надеется, что это побудит их хотя бы вернуться к 2021 или 2022 году, когда компании в сфере ИИ все еще делились несколькими предложениями информации о том, на чем были обучены их модели.

“Даже частичная прозрачность имеет огромную социальную ценность и умереную научную ценность”, – заключила она.

Интересные статьи

Нет статей для отображения

Предыдущая статья

Загрузка предыдущей публикации...

Следующая статья

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...