Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Впервые с 2019 года, когда была выпущена GPT-2, OpenAI публикует новые большие языковые модели с открытыми весами. Это важная веха для компании, которую все чаще обвиняют в отказе от первоначальной заявленной миссии – "обеспечить, чтобы искусственный общий интеллект приносил пользу всему человечеству". Теперь, после нескольких задержек, связанных с дополнительным тестированием безопасности и доработкой, gpt-oss-120b и gpt-oss-20b доступны для загрузки с Hugging Face.
Прежде чем двигаться дальше, стоит уточнить, что именно делает OpenAI. Компания не публикует новые модели с открытым исходным кодом, включающие базовый код и данные, которые использовались для их обучения. Вместо этого она делится весами – то есть числовыми значениями, которые модели выучили для присвоения входам во время обучения, – которые определяют работу новых систем.
По словам Бенджамина Ли (Benjamin C. Lee), профессора инженерных и компьютерных наук в Университете Пенсильвании, модели с открытыми весами и модели с открытым исходным кодом служат двум разным целям. "Модель с открытым весом предоставляет значения, полученные в процессе обучения большой языковой модели, и они, по сути, позволяют использовать эту модель и строить на ее основе. Вы можете использовать модель "из коробки" или переопределить или дообучить ее для конкретного приложения, корректируя веса по своему усмотрению", – пояснил он.
Если коммерческие модели – это абсолютная "черная коробка", а система с открытым исходным кодом обеспечивает полную настройку и модификацию, то ИИ с открытыми весами занимает промежуточное положение. OpenAI не публикует модели с открытым исходным кодом, вероятно, потому что конкурент мог бы использовать данные и код обучения для обратной разработки ее технологий. "Модель с открытым исходным кодом – это больше, чем просто веса. Она также может включать код, используемый для запуска процесса обучения", – добавил Ли. И, на практике, обычный пользователь не сможет получить большую пользу от модели с открытым исходным кодом, если у него не будет парка высокопроизводительных графических процессоров NVIDIA, потребляющих значительное количество электроэнергии (хотя они были бы полезны исследователям, стремящимся узнать больше о данных, использованных компанией для обучения своих моделей, и существует несколько моделей с открытым исходным кодом, таких как Mistral NeMo и Mistral Small 3).
Основное различие между gpt-oss-120b и gpt-oss-20b заключается в количестве параметров, которые они предлагают. Если вы не знакомы с этим термином, параметры – это настройки, которые большая языковая модель может изменять, чтобы предоставить вам ответ. Названия немного сбивают с толку, но gpt-oss-120b – это модель с 117 миллиардами параметров, а ее меньшая версия – с 21 миллиардом. На практике это означает, что gpt-oss-120b требует более мощного оборудования для работы, при этом OpenAI рекомендует для эффективного использования один графический процессор на 80 ГБ. Хорошая новость заключается в том, что, по словам компании, любой современный компьютер с 16 ГБ оперативной памяти может работать с gpt-oss-20b. В результате вы можете использовать меньшую модель для выполнения таких задач, как кодирование, на своем компьютере без подключения к Интернету.
Более того, OpenAI предоставляет модели по лицензии Apache 2.0, что дает пользователям большую гибкость в модификации систем в соответствии со своими потребностями. Несмотря на то, что это не новый коммерческий релиз, OpenAI утверждает, что новые модели во многих отношениях сопоставимы с ее проприетарными системами. Единственным ограничением моделей oss является то, что они не предлагают мультимодальный ввод, то есть не могут обрабатывать изображения, видео и голос. Для этих возможностей вам все равно придется обращаться к облачным и коммерческим моделям OpenAI, которые могут быть сконфигурированы обеими новыми системами с открытыми весами.
В дополнение к этому, OpenAI обучила модели с использованием методов, которые компания ранее использовала в разработке o3 и других своих передовых систем. В соревновательном кодировании gpt-oss-120b получила оценку, лишь немного уступающую o3, текущей передовой модели рассуждений OpenAI, в то время как gpt-oss-20b заняла место между o3-mini и o4-mini. Конечно, нам придется дождаться дополнительных реальных тестов, чтобы увидеть, как две новые модели сравнятся с коммерческими предложениями OpenAI и предложениями ее конкурентов.
Выпуск gpt-oss-120b и gpt-oss-20b и очевидная готовность OpenAI делать ставку на модели с открытыми весами последовала за заявлением Марка Цукерберга о том, что Meta выпустит меньше таких систем для публичного доступа. Открытый исходный код ранее был центральным в сообщениях Цукерберга об усилиях его компании в области искусственного интеллекта, причем генеральный директор однажды заметил о системах с закрытым исходным кодом: "Черт с ними". По крайней мере, среди сектора энтузиастов технологий, которые готовы экспериментировать с большими языковыми моделями, время, случайное или нет, немного смущает Meta. "Можно утверждать, что модели с открытыми весами демократизируют доступ к самым большим и мощным моделям для людей, у которых нет этих огромных гипермасштабируемых центров обработки данных с большим количеством графических процессоров", – сказал профессор Ли. "Это позволяет людям использовать результаты или продукты многомесячного процесса обучения в огромном центре обработки данных, не инвестируя в эту инфраструктуру самостоятельно. С точки зрения человека, которому просто нужна действительно мощная модель для начала, а затем хочет создавать какое-то приложение, я думаю, что модели с открытыми весами могут быть действительно полезны".
OpenAI уже работает с несколькими организациями для развертывания собственных версий этих моделей, включая AI Sweden, национальный центр прикладного искусственного интеллекта страны. В ходе брифинга для прессы, который OpenAI провела перед сегодняшним объявлением, команда, работавшая над gpt-oss-120b и gpt-oss-20b, заявила, что рассматривает две модели как эксперимент; чем больше людей будут их использовать, тем больше вероятность того, что OpenAI выпустит дополнительные модели с открытыми весами в будущем.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...