Внедрение больших языковых моделей (large language models, LLM) в здравоохранении является одним из ключевых отраслевых трендов. Однако у этого направления имеется критическая проблема – неприемлемо высокий риск «галлюцинаций». Модель может уверенно заявить то, чего не существует. Опасность тут состоит не в том, что модель склонна ошибаться, а в том, что ценой такой ошибки может быть буквально жизнь и здоровье пациента.
Для снижения рисков галлюцинаций LLM как правило применяют 2 технических подхода: дообучение (fine-tuning) и RAG (Retrieval-Augmented Generation). В этой публикации мы предметно рассмотрим каждый из них и поделимся своими выводами.
Fine-tuning: дообучение модели
При fine-tuning модель дополнительно обучают на проверенных медицинских знаниях и данных: историях болезней, научных статьях, клинических протоколах. Идея в том, чтобы она усвоила корректные паттерны и перестала выдумывать несуразности с точки зрения медицины.
Плюс: Модель начинает «мыслить» как медик – правильно использует термины, выстраивает логичные связи. Ответ модели становится статистически близок к врачу-эксперту, «отсебятины» заметно меньше.
Минус: Качество напрямую зависит от данных. Если датасет скудный или однобокий, пробелы останутся. И ещё: модель «застывает» во времени. Новые протоколы лечения или клинические рекомендации? Нужно переобучать, а это долго и дорого.
Пример:
Запрос: совместимость двух препаратов.
Модель дообучали на тысячах аннотаций и записей о лекарственных взаимодействиях.
Скорее всего, она ответит верно – на основе усвоенных примеров.
Но если конкретная комбинация в обучении не встречалась или вышло новое предупреждение, модель либо даст общий ответ, либо (что хуже) уверенно экстраполирует неверный паттерн.
RAG: заставляем опираться на источники
RAG разделяет поиск и генерацию. Сначала система ищет информацию в доверенной базе знаний (клинические рекомендации, нормативные документы, справочники, протоколы), а затем LLM формулирует ответ строго по найденному. Модель не имеет права фантазировать – она только интерпретирует.
Плюс: Каждый ответ привязан к конкретным документам, которые врач может открыть и проверить. Галлюцинации всё ещё возможны при неверной интерпретации фрагмента или некачественной структуре RAG-базы, но их вероятность существенно снижается.
Минус: Всё упирается в качество поиска. Если в базе нет нужной информации или запрос составлен неудачно, система честно скажет «не найдено», но не поможет. И придется вложиться в RAG-пайплайн: парсинг, разбивка документов, векторная база, промптинг.
Пример:
Тот же запрос о совместимости.
Система ищет в локальной векторной базе (актуальные справочники, внутренние протоколы) разделы с этими препаратами. LLM получает точные цитаты и отвечает:
«Согласно внутреннему протоколу №X и справочнику Y, совместное применение не рекомендуется (риск кровотечения). Источники: [1], [2]».
Сравнение подходов
| Критерий | Дообучение (fine-tuning | RAG |
| Как борется с галлюцинациями | Дообучение и калибровка модели на проверенных данных | Принудительная привязка к внешним источникам знаний |
| Эффективность | Средняя или высокая, но зависит от полноты данных [1] | Высокая, если пайплайн настроен корректно |
| Объяснимость | Сложно, нужны методы объяснимого ИИ (XAI) | Да, ответ сопровождается цитатами |
| Гибкость к новым данным | Низкая: нужно долго и дорого переобучать | Высокая: добавил документ в базу – и готово |
| Нагрузка и вычислительная нагрузка (on-premise) | Высокая на этапе обучения. Нагрузка на инференсе – ниже, аналогичен «чистой» модели | Умеренная: поиск на CPU, инференс на GPU |
| Риск галлюцинаций | Средний. Внутри обученной зоны – низкий, за её пределами – высокий | Низкий. Только ошибки поиска или интерпретации |
Что говорят исследования
В последнее время ученые и разработчики ИИ-решений всё чаще говорят не о выборе между методами, а о гибридном подходе – объединении обоих технологий.
В научной литературе недавно появились работы, которые проверили это на практике.
Исследование 1: Pingua и коллеги, Университет Мемфиса, июнь 2025 [2]
Авторы взяли пять открытых моделей: Llama-3.1-8B, Gemma-2-9B, Mistral-7B-Instruct, Qwen2.5-7B и Phi-3.5-Mini-Instruct. Протестировали их в трёх режимах: чистый fine-tuning, чистый RAG и гибрид. Все модели – 4-битное квантование (Unsloth), датасет MedQuAD (почти 50 тысяч медицинских вопросов и ответов), оценка по 14 метрикам.
Главные выводы:
- RAG уверенно обходит fine-tuning. Статистически значимое преимущество по 9–11 метрикам из 14 в зависимости от модели.
- Гибрид даёт прирост, но только в отдельных случаях (например, Phi). Для остальных моделей он либо бесполезен, либо даже ухудшает результат. Интуиция «сделаем и то, и другое – будет ещё лучше» не подтвердилась.
- Квантование – рабочий инструмент. 4-битные модели показывают достойные результаты, компромисс между размером и качеством вполне достижим, что критически важно для моделей, работающих в закрытом контуре.
- RAG дешевле в развёртывании. Fine-tuning требует часов на GPU, дорогого оборудования и тщательной подготовки данных. RAG обходится без всего этого и при этом выдаёт лучшие метрики. Но при этом он усложняет инфраструктуру и увеличивает время ответа.
Исследование 2: Хассан Джубаир, январь 2026, систематический обзор 50 работ [3]
Автор проанализировал исследования за 2023–2025 годы и поставил вопрос: какой из двух подходов реально снижает галлюцинации в здравоохранении?
Ответ однозначный: RAG превосходит fine-tuning по клинической безопасности.
Почему?
Fine-tuning пытается «вшить» знания внутрь параметров модели. Это создаёт иллюзию экспертизы, но рождает проблему: модель слишком хорошо запоминает примеры и на пограничных случаях уверенно галлюцинирует. Дообученные модели часто не чувствуют границ собственной компетенции.
RAG не заставляет модель запоминать дозировки и противопоказания. Он превращает базу знаний в динамический, проверяемый источник, к которому модель обращается при каждом запросе. Галлюцинации не исчезают полностью, но меняют природу – теперь это ошибки интерпретации документа, а не выдумка из воздуха.
Цена специализации
Обзор не отрицает ценность fine-tuning. Дообученная модель действительно лучше пишет выписные эпикризы, использует корректные термины, выстраивает диагностические цепочки. Но это даётся дорогой ценой:
- Катастрофическое забывание. Модель, переученная на узкой коллекции, порой теряет часть общих знаний.
- Неактуальность знаний. Медицина меняется быстрее, чем выходит новый датасет.
Особенно заметно это на редких заболеваниях, нестандартных взаимодействиях, новых протоколах. Здесь fine-tuning систематически проигрывает: модель либо не видела такие случаи, либо запомнила их плохо. RAG же идёт в актуальный справочник и выдаёт точный ответ с источником.
Гибридное будущее – агентные системы. Автор обзора не делит мир на «RAG против FT». Он говорит о синергии: fine-tuning отвечает за то, как сформулировать ответ (стиль, язык, логика), а RAG – за то, на основании чего (актуальные источники, проверенные факты).
Следующий шаг – агентные RAG-системы. Модель уже не просто ищет по запросу, а сама оценивает, хватает ли информации, при необходимости уточняет запрос, переформулирует, обращается к разным источникам. Это поведение ближе к реальному клиницисту, который ведёт диагностический поиск, а не выдаёт готовый ответ.
Что это значит для тех, кто разворачивает модели у себя
Выводы исследователей напрямую перекладываются на инженерные решения.
- Если вам нужна точность и проверяемость – RAG становится безальтернативным выбором.
- Если вам нужен стиль и сложные форматы вывода – fine-tuning (в экономичных формах LoRA или QLoRA) остаётся полезным, но только внутри RAG-пайплайна.
Борьба с галлюцинациями в медицинских ИИ-системах – это не выбор одного метода. Это проектирование архитектуры с учетом вычислительных ограничений, в которой разные подходы работают вместе, закрывая слабые места друг друга.
1. RAG vs. Fine-Tuning in Healthcare AI: Which Model Predicts Patient Outcomes Better? https://www.makebot.ai/blog-en/rag-vs-fine-tuning-in-healthcare-ai-which-model-predicts-patient-outcomes-better
2. https://pubmed.ncbi.nlm.nih.gov/40722379/
Pingua B, Sahoo A, Kandpal M, Murmu D, Rautaray J, Barik RK, Saikia MJ. Medical LLMs: Fine-Tuning vs. Retrieval-Augmented Generation. Bioengineering (Basel). 2025 Jun 24;12(7):687. doi: 10.3390/bioengineering12070687. PMID: 40722379; PMCID: PMC12292519.
3. https://www.authorea.com/users/820892/articles/1380657-retrieval-augmented-generation-rag-vs-fine-tuning-a-systematic-review-of-hallucination-mitigation-in-medical-llms
Hassan Jubair. Retrieval-Augmented Generation (RAG) vs. Fine-Tuning: A Systematic Review of Hallucination Mitigation in Medical LLMs. Authorea. January 21, 2026. DOI: 10.22541/au.176903295.54191070/v1