27 ноября 2024

Опасность «коллапса моделей» в генеративном искусственном интеллекте

245

Гусев Александр,
Директор по развитию бизнеса

На сегодняшний день внедрение больших языковых моделей (LLM) является одним из самых многообещающих направлений искусственного интеллекта (ИИ), в том числе в сфере здравоохранения. Считается, что широкое внедрение LLM позволит усилить эффективность решения ряда задач, таких как создание диалоговых чат-ботов для пациентов, доступ к агрегированной справочной информации в системах поддержки принятия врачебных решений (СППВР), сократит затраты и увеличит скорость вывода новых лекарств на рынок.

Вместе с этим при использовании и внедрении LLM в медицине и здравоохранении создаются новые существенные риски.

Всем известен главный из них – это склонность LLM к галлюцинациям. Однако в последнее время участились опасения и еще по одной технологической особенности LLM, которая называется феноменом «коллапса модели» (model collapse). 

Коллапс модели – это дегенеративный процесс, влияющий на последующие поколения обученных генеративных моделей, в которых данные, которые они генерируют, в конечном итоге «загрязняют» обучающий набор следующего поколения моделей. Обучаясь на загрязненных данных, LLM затем неправильно воспринимают реальность, причем эта «неправильность» последовательно ухудшается при переходе от старой к новым версиям моделей.

При многократном дообучении на данных, сгенерированных другими ИИ-решениями, модель постепенно теряет способность адекватно воспроизводить вероятностное распределение исходных данных.

Коллапс модели происходит из-за трех конкретных ошибок:

  • ошибка статистической аппроксимации;
  • ошибка функциональной экспрессивности;
  • ошибка функциональной аппроксимации.

Коллапс модели наблюдается в большинстве типов моделей машинного обучения, но для LLM эта проблема наиболее актуальна, так как небольшие модели, такие как GMM и VAE, обычно обучаются с нуля, что в случае с LLM настолько дорого, что их обычно инициализируют с помощью предварительно обученных версий.

Коллапс модели особенно заметен в случаях, когда LLM обучается на данных, сгенерированных предыдущим поколением аналогичной модели. В недавном исследовании, опубликованном в журнале Nature, авторы обучали каузальную языковую модель OPT-125m и настраивали (fine-tuning) ее на наборе данных wikitext2. Для обучения использовались алгоритмы поиска с ограничением на длину последовательности. Модель 0 обучалась на исходном наборе данных, модель 1 была обучена на данных, созданных моделью 0, модель 2 была обучена на данных, созданных моделью 1, и так далее, при этом все сгенерированные наборы данных были равны по размеру.

В результате проведенного эксперимента выяснилось, что модель начала подстраиваться под собственные ошибки, что снизило точность предикции и привело к накоплению ошибок в сгенерированных данных. Деградировавшая модель начинала генерировать повторяющиеся фразы. На протяжении поколений модель смещалась в сторону более вероятных последовательностей из исходных данных и начала вводить свои собственные невероятные последовательности, то есть ошибки. Тонкая настройка (fine-tuning) не позволила справится с эффектом коллапса модели.

Проанализировав полученные данные, исследователи пришли к неутешительному выводу о том, что при создании и использовании больших языковых моделей необходимо уделять особое внимание предотвращению их коллапса. Для этого необходимо контролировать доступ к исходному источнику данных, не сгенерированных LLM.

При обучении или дообучении LLM важно отличать данные, сгенерированные LLM, от других данных. Это, в свою очередь, является уже сейчас крайне сложной задачей – поскольку как правило исходные версии LLM создаются на основе открытых источников данных, таких как публикации в Интернет, социальных сетей и тд., где размещенный контент все больше и больше создается не человеком, а самими же моделями генеративного ИИ и LLM, в частности.

Проконтролировать при создании новых версий LLM – какие данные они использовали и были ли среди них данные, созданные не человеком, а другими моделями – уже сейчас практически невозможно.

Пожалуйста, оцените эту статью
( 5 из 5,
оценили: 4)
Ваша оценка: Не ставилась

Еще по этой теме

Обратите внимание на похожие статьи

28 Окт 2024

Большие языковые модели (LLM) в здравоохранении

Введение Внедрение технологий искусственного интеллекта (ИИ) в здравоохранении является одним из самых перспективных направлений цифровой трансформации отрасли. Несмотря на то, …

07 Май 2024

Применение больших языковых моделей в медицине

Большие языковые модели (Large Language Models, LLM) произвели революцию в обработке естественного языка. Такие модели, как GPT-4 и PaLM 2, …

12 Сен 2023

Обучение на данных с системными (структурированными) пропусками

Пропуски в значениях данных – частая сложность при разработке моделей машинного обучения. Для случаев со случайными пропусками значений параметров существует …

Подпишитесь на нашу рассылку

Хотите получать интересную и полезную информацию о цифровом здравоохранении и искусственном интеллекте для медицины?
Включайтесь в нашу рассылку!

Мы рекомендуем

Стандарты для создания систем искусственного интеллекта для здравоохранения

Просмотров 1 955 1 неделя, 3 дня назад

Большие языковые модели (LLM) в здравоохранении

Просмотров 774 1 месяц, 1 неделя назад

10 принципов FDA относительно регулирования ИИ в здравоохранении

Просмотров 469 1 месяц, 2 недели назад

Роль искусственного интеллекта в стратификации рисков в здравоохранении

Просмотров 867 5 месяцев назад

Присоединяйтесь

Наши группы в соц сетях