Загрузка...

«Катастрофическое переобучение» может навредить большим языковым моделям, которые обучаются на большем объеме данных ради самого процесса обучения.

81Опубликовано 14.04.2025 в 03:10Категория: ИИИсточник

Исследователи из ведущих университетов США предупреждают, что увеличение времени предварительного обучения может негативно сказаться на производительности. Чрезмерное предварительное обучение может привести к ухудшению результатов из-за эффекта, схожего с эффектом бабочки. Чем больше модель проходит предварительное обучение, тем более чувствительной она становится к незначительным изменениям, которые могут нарушить конечный результат.

Ученые из Карнеги-Меллона, Стэнфорда, Гарварда и Принстона ставят под сомнение одно из общепринятых убеждений в области разработки ИИ – чем больше данных для предварительного обучения, тем лучше производительность. Как сообщает HPCwire, в новой научной работе обсуждается концепция "катастрофического переобучения", при котором увеличение времени предварительного обучения может ухудшить производительность модели после тонкой настройки.

Исследователи сравнили две версии модели OLMo-1B: одну, обученную на 2,3 триллионах токенов, и другую – на 3 триллионах. Несмотря на больший набор данных для обучения, более интенсивно обученная модель показала на 3% худшие результаты в тестах, таких как AlpacaEval и ARC.

Достижение точки перегиба

Снижение производительности, как утверждает исследование, связано с феноменом, называемым "прогрессивной чувствительностью". По мере увеличения количества токенов модель становится более хрупкой. Даже незначительные корректировки, например, изменения во время тонкой настройки или внесение шума, могут свести на нет прежние достижения. Авторы продемонстрировали это, внедрив гауссовский шум в предварительно обученные модели, отметив, что производительность ухудшалась тем быстрее, чем дольше обучалась модель.

Точка, в которой дополнительное обучение начинает ухудшать производительность, называется "точкой перегиба". После ее достижения преимущества обучения начинают перевешиваться риском внутренней нестабильности. Исследование показало, что эта критическая точка часто наступает после 2,5 триллионов токенов в небольших моделях, таких как OLMo-1B.

"Катастрофическое переобучение может быть неизбежным... особенно когда задачи предварительного обучения и тонкой настройки не согласованы", – предупреждают авторы в своей научной работе, доступной на сервере предварительных публикаций arXiv.

Хотя исследователи не предлагают отказаться от предварительного обучения, они считают, что разработчикам следует учитывать, сколько предварительного обучения достаточно. В заключение работы говорится: "Наши выводы призывают к возобновлению внимания к масштабированию моделей, которое учитывает весь конвейер обучения".

Для разработчиков ИИ, стремящихся к масштабированию, посыл кажется ясным: иногда меньше – значит лучше.