Fine-Tuning vs RAG. Как борются с галлюцинациями LLM-моделей в здравоохранении

Макарова Елена,
Руководитель направления искусственного интеллекта

Внедрение больших языковых моделей (large language models, LLM) в здравоохранении является одним из ключевых отраслевых трендов. Однако у этого направления имеется критическая проблема – неприемлемо высокий риск «галлюцинаций». Модель может уверенно заявить то, чего не существует. Опасность тут состоит не в том, что модель склонна ошибаться, а в том, что ценой такой ошибки может быть буквально жизнь и здоровье пациента.

Для снижения рисков галлюцинаций LLM как правило применяют 2 технических подхода: дообучение (fine-tuning) и RAG (Retrieval-Augmented Generation). В этой публикации мы предметно рассмотрим каждый из них и поделимся своими выводами.

Fine-tuning: дообучение модели

При fine-tuning модель дополнительно обучают на проверенных медицинских знаниях и данных: историях болезней, научных статьях, клинических протоколах. Идея в том, чтобы она усвоила корректные паттерны и перестала выдумывать несуразности с точки зрения медицины.

Плюс: Модель начинает «мыслить» как медик – правильно использует термины, выстраивает логичные связи. Ответ модели становится статистически близок к врачу-эксперту, «отсебятины» заметно меньше.

Минус: Качество напрямую зависит от данных. Если датасет скудный или однобокий, пробелы останутся. И ещё: модель «застывает» во времени. Новые протоколы лечения или клинические рекомендации? Нужно переобучать, а это долго и дорого.

Пример:

Запрос: совместимость двух препаратов.

Модель дообучали на тысячах аннотаций и записей о лекарственных взаимодействиях.
Скорее всего, она ответит верно – на основе усвоенных примеров.
Но если конкретная комбинация в обучении не встречалась или вышло новое предупреждение, модель либо даст общий ответ, либо (что хуже) уверенно экстраполирует неверный паттерн.

RAG: заставляем опираться на источники

RAG разделяет поиск и генерацию. Сначала система ищет информацию в доверенной базе знаний (клинические рекомендации, нормативные документы, справочники, протоколы), а затем LLM формулирует ответ строго по найденному. Модель не имеет права фантазировать – она только интерпретирует.

Плюс: Каждый ответ привязан к конкретным документам, которые врач может открыть и проверить. Галлюцинации всё ещё возможны при неверной интерпретации фрагмента или некачественной структуре RAG-базы, но их вероятность существенно снижается.

Минус: Всё упирается в качество поиска. Если в базе нет нужной информации или запрос составлен неудачно, система честно скажет «не найдено», но не поможет. И придется вложиться в RAG-пайплайн: парсинг, разбивка документов, векторная база, промптинг.

Пример:

Тот же запрос о совместимости.

Система ищет в локальной векторной базе (актуальные справочники, внутренние протоколы) разделы с этими препаратами. LLM получает точные цитаты и отвечает:
«Согласно внутреннему протоколу №X и справочнику Y, совместное применение не рекомендуется (риск кровотечения). Источники: [1], [2]».

Сравнение подходов

Критерий	Дообучение (fine-tuning	RAG
Как борется с галлюцинациями	Дообучение и калибровка модели на проверенных данных	Принудительная привязка к внешним источникам знаний
Эффективность	Средняя или высокая, но зависит от полноты данных [1]	Высокая, если пайплайн настроен корректно
Объяснимость	Сложно, нужны методы объяснимого ИИ (XAI)	Да, ответ сопровождается цитатами
Гибкость к новым данным	Низкая: нужно долго и дорого переобучать	Высокая: добавил документ в базу – и готово
Нагрузка и вычислительная нагрузка (on-premise)	Высокая на этапе обучения. Нагрузка на инференсе – ниже, аналогичен «чистой» модели	Умеренная: поиск на CPU, инференс на GPU
Риск галлюцинаций	Средний. Внутри обученной зоны – низкий, за её пределами – высокий	Низкий. Только ошибки поиска или интерпретации

Что говорят исследования

В последнее время ученые и разработчики ИИ-решений всё чаще говорят не о выборе между методами, а о гибридном подходе – объединении обоих технологий.

В научной литературе недавно появились работы, которые проверили это на практике.

Исследование 1: Pingua и коллеги, Университет Мемфиса, июнь 2025 [2]

Авторы взяли пять открытых моделей: Llama-3.1-8B, Gemma-2-9B, Mistral-7B-Instruct, Qwen2.5-7B и Phi-3.5-Mini-Instruct. Протестировали их в трёх режимах: чистый fine-tuning, чистый RAG и гибрид. Все модели – 4-битное квантование (Unsloth), датасет MedQuAD (почти 50 тысяч медицинских вопросов и ответов), оценка по 14 метрикам.

Главные выводы:

RAG уверенно обходит fine-tuning. Статистически значимое преимущество по 9–11 метрикам из 14 в зависимости от модели.
Гибрид даёт прирост, но только в отдельных случаях (например, Phi). Для остальных моделей он либо бесполезен, либо даже ухудшает результат. Интуиция «сделаем и то, и другое – будет ещё лучше» не подтвердилась.
Квантование – рабочий инструмент. 4-битные модели показывают достойные результаты, компромисс между размером и качеством вполне достижим, что критически важно для моделей, работающих в закрытом контуре.
RAG дешевле в развёртывании. Fine-tuning требует часов на GPU, дорогого оборудования и тщательной подготовки данных. RAG обходится без всего этого и при этом выдаёт лучшие метрики. Но при этом он усложняет инфраструктуру и увеличивает время ответа.

Исследование 2: Хассан Джубаир, январь 2026, систематический обзор 50 работ [3]

Автор проанализировал исследования за 2023–2025 годы и поставил вопрос: какой из двух подходов реально снижает галлюцинации в здравоохранении?

Ответ однозначный: RAG превосходит fine-tuning по клинической безопасности.

Почему?

Fine-tuning пытается «вшить» знания внутрь параметров модели. Это создаёт иллюзию экспертизы, но рождает проблему: модель слишком хорошо запоминает примеры и на пограничных случаях уверенно галлюцинирует. Дообученные модели часто не чувствуют границ собственной компетенции.

RAG не заставляет модель запоминать дозировки и противопоказания. Он превращает базу знаний в динамический, проверяемый источник, к которому модель обращается при каждом запросе. Галлюцинации не исчезают полностью, но меняют природу – теперь это ошибки интерпретации документа, а не выдумка из воздуха.

Цена специализации

Обзор не отрицает ценность fine-tuning. Дообученная модель действительно лучше пишет выписные эпикризы, использует корректные термины, выстраивает диагностические цепочки. Но это даётся дорогой ценой:

Катастрофическое забывание. Модель, переученная на узкой коллекции, порой теряет часть общих знаний.
Неактуальность знаний. Медицина меняется быстрее, чем выходит новый датасет.

Особенно заметно это на редких заболеваниях, нестандартных взаимодействиях, новых протоколах. Здесь fine-tuning систематически проигрывает: модель либо не видела такие случаи, либо запомнила их плохо. RAG же идёт в актуальный справочник и выдаёт точный ответ с источником.

Гибридное будущее – агентные системы. Автор обзора не делит мир на «RAG против FT». Он говорит о синергии: fine-tuning отвечает за то, как сформулировать ответ (стиль, язык, логика), а RAG – за то, на основании чего (актуальные источники, проверенные факты).

Следующий шаг – агентные RAG-системы. Модель уже не просто ищет по запросу, а сама оценивает, хватает ли информации, при необходимости уточняет запрос, переформулирует, обращается к разным источникам. Это поведение ближе к реальному клиницисту, который ведёт диагностический поиск, а не выдаёт готовый ответ.

Что это значит для тех, кто разворачивает модели у себя

Выводы исследователей напрямую перекладываются на инженерные решения.

Если вам нужна точность и проверяемость – RAG становится безальтернативным выбором.
Если вам нужен стиль и сложные форматы вывода – fine-tuning (в экономичных формах LoRA или QLoRA) остаётся полезным, но только внутри RAG-пайплайна.

Борьба с галлюцинациями в медицинских ИИ-системах – это не выбор одного метода. Это проектирование архитектуры с учетом вычислительных ограничений, в которой разные подходы работают вместе, закрывая слабые места друг друга.

1. RAG vs. Fine-Tuning in Healthcare AI: Which Model Predicts Patient Outcomes Better? https://www.makebot.ai/blog-en/rag-vs-fine-tuning-in-healthcare-ai-which-model-predicts-patient-outcomes-better

2. https://pubmed.ncbi.nlm.nih.gov/40722379/
Pingua B, Sahoo A, Kandpal M, Murmu D, Rautaray J, Barik RK, Saikia MJ. Medical LLMs: Fine-Tuning vs. Retrieval-Augmented Generation. Bioengineering (Basel). 2025 Jun 24;12(7):687. doi: 10.3390/bioengineering12070687. PMID: 40722379; PMCID: PMC12292519.

3. https://www.authorea.com/users/820892/articles/1380657-retrieval-augmented-generation-rag-vs-fine-tuning-a-systematic-review-of-hallucination-mitigation-in-medical-llms
Hassan Jubair. Retrieval-Augmented Generation (RAG) vs. Fine-Tuning: A Systematic Review of Hallucination Mitigation in Medical LLMs. Authorea. January 21, 2026. DOI: 10.22541/au.176903295.54191070/v1

Пожалуйста, оцените эту статью

( 5 из 5,

оценили: 4)

Ваша оценка: Не ставилась

Fine-Tuning vs RAG. Как борются с галлюцинациями LLM-моделей в здравоохранении

Fine-tuning: дообучение модели

Пример:

RAG: заставляем опираться на источники

Пример:

Сравнение подходов

Что говорят исследования

Исследование 1: Pingua и коллеги, Университет Мемфиса, июнь 2025 [2]

Исследование 2: Хассан Джубаир, январь 2026, систематический обзор 50 работ [3]

Цена специализации

Что это значит для тех, кто разворачивает модели у себя

Пожалуйста, оцените эту статью

Темы статьи

Еще по этой теме

Обратите внимание на похожие статьи

Обезличивание медицинских данных: важность и подходы

Метрики качества работы моделей машинного обучения: как их понимать и использовать?

Опасность «коллапса моделей» в генеративном искусственном интеллекте

Мы рекомендуем

Популярные статьи

Fine-Tuning vs RAG. Как борются с галлюцинациями LLM-моделей в здравоохранении

Fine-tuning: дообучение модели

Пример:

RAG: заставляем опираться на источники

Пример:

Сравнение подходов

Что говорят исследования

Исследование 1: Pingua и коллеги, Университет Мемфиса, июнь 2025 [2]

Исследование 2: Хассан Джубаир, январь 2026, систематический обзор 50 работ [3]

Цена специализации

Что это значит для тех, кто разворачивает модели у себя

Пожалуйста, оцените эту статью

Темы статьи

Еще по этой теме

Обратите внимание на похожие статьи

Обезличивание медицинских данных: важность и подходы

Метрики качества работы моделей машинного обучения: как их понимать и использовать?

Опасность «коллапса моделей» в генеративном искусственном интеллекте

Подпишитесь на нашу рассылку

Мы рекомендуем

Популярные статьи

Присоединяйтесь

Наши группы в соц сетях