Опасность «коллапса моделей» в генеративном искусственном интеллекте

Гусев Александр,
Директор по развитию бизнеса

На сегодняшний день внедрение больших языковых моделей (LLM) является одним из самых многообещающих направлений искусственного интеллекта (ИИ), в том числе в сфере здравоохранения. Считается, что широкое внедрение LLM позволит усилить эффективность решения ряда задач, таких как создание диалоговых чат-ботов для пациентов, доступ к агрегированной справочной информации в системах поддержки принятия врачебных решений (СППВР), сократит затраты и увеличит скорость вывода новых лекарств на рынок.

Вместе с этим при использовании и внедрении LLM в медицине и здравоохранении создаются новые существенные риски.

Всем известен главный из них – это склонность LLM к галлюцинациям. Однако в последнее время участились опасения и еще по одной технологической особенности LLM, которая называется феноменом «коллапса модели» (model collapse).

Коллапс модели – это дегенеративный процесс, влияющий на последующие поколения обученных генеративных моделей, в которых данные, которые они генерируют, в конечном итоге «загрязняют» обучающий набор следующего поколения моделей. Обучаясь на загрязненных данных, LLM затем неправильно воспринимают реальность, причем эта «неправильность» последовательно ухудшается при переходе от старой к новым версиям моделей.

При многократном дообучении на данных, сгенерированных другими ИИ-решениями, модель постепенно теряет способность адекватно воспроизводить вероятностное распределение исходных данных.

Коллапс модели происходит из-за трех конкретных ошибок:

ошибка статистической аппроксимации;
ошибка функциональной экспрессивности;
ошибка функциональной аппроксимации.

Коллапс модели наблюдается в большинстве типов моделей машинного обучения, но для LLM эта проблема наиболее актуальна, так как небольшие модели, такие как GMM и VAE, обычно обучаются с нуля, что в случае с LLM настолько дорого, что их обычно инициализируют с помощью предварительно обученных версий.

Коллапс модели особенно заметен в случаях, когда LLM обучается на данных, сгенерированных предыдущим поколением аналогичной модели. В недавном исследовании, опубликованном в журнале Nature, авторы обучали каузальную языковую модель OPT-125m и настраивали (fine-tuning) ее на наборе данных wikitext2. Для обучения использовались алгоритмы поиска с ограничением на длину последовательности. Модель 0 обучалась на исходном наборе данных, модель 1 была обучена на данных, созданных моделью 0, модель 2 была обучена на данных, созданных моделью 1, и так далее, при этом все сгенерированные наборы данных были равны по размеру.

В результате проведенного эксперимента выяснилось, что модель начала подстраиваться под собственные ошибки, что снизило точность предикции и привело к накоплению ошибок в сгенерированных данных. Деградировавшая модель начинала генерировать повторяющиеся фразы. На протяжении поколений модель смещалась в сторону более вероятных последовательностей из исходных данных и начала вводить свои собственные невероятные последовательности, то есть ошибки. Тонкая настройка (fine-tuning) не позволила справится с эффектом коллапса модели.

Проанализировав полученные данные, исследователи пришли к неутешительному выводу о том, что при создании и использовании больших языковых моделей необходимо уделять особое внимание предотвращению их коллапса. Для этого необходимо контролировать доступ к исходному источнику данных, не сгенерированных LLM.

При обучении или дообучении LLM важно отличать данные, сгенерированные LLM, от других данных. Это, в свою очередь, является уже сейчас крайне сложной задачей – поскольку как правило исходные версии LLM создаются на основе открытых источников данных, таких как публикации в Интернет, социальных сетей и тд., где размещенный контент все больше и больше создается не человеком, а самими же моделями генеративного ИИ и LLM, в частности.

Проконтролировать при создании новых версий LLM – какие данные они использовали и были ли среди них данные, созданные не человеком, а другими моделями – уже сейчас практически невозможно.

Пожалуйста, оцените эту статью

( 5 из 5,

оценили: 4)

Ваша оценка: Не ставилась

Опасность «коллапса моделей» в генеративном искусственном интеллекте

Пожалуйста, оцените эту статью

Темы статьи

Еще по этой теме

Обратите внимание на похожие статьи

Большие языковые модели (LLM) в здравоохранении

Применение больших языковых моделей в медицине

Обучение на данных с системными (структурированными) пропусками

Мы рекомендуем

Популярные статьи

Опасность «коллапса моделей» в генеративном искусственном интеллекте

Пожалуйста, оцените эту статью

Темы статьи

Еще по этой теме

Обратите внимание на похожие статьи

Большие языковые модели (LLM) в здравоохранении

Применение больших языковых моделей в медицине

Обучение на данных с системными (структурированными) пропусками

Подпишитесь на нашу рассылку

Мы рекомендуем

Популярные статьи

Присоединяйтесь

Наши группы в соц сетях