27 июня 2022

Разработка модели машинного обучения для интерпретации результатов лабораторной диагностики с целью выявления подозрений на заболевания

435

Гусев А.В., Гавриленко Г.Г., Гаврилов Д.В.

ВВЕДЕНИЕ

Интерпретация результатов количественных лабораторных исследований имеет ряд особенностей и ограничений. Для устранения этих ограничений обсуждается использование систем поддержки принятия врачебных решений. А использование в этих системах технологий искусственного интеллекта, в частности, NLP-технологий для автоматического извлечения симптомов и другой важной информации из электронных медицинских карт (ЭМК) с последующей их интерпретацией моделями машинного обучения позволяет оценивать вероятность у пациента того или иного заболевания.

ЦЕЛЬ ИССЛЕДОВАНИЯ

Изучение подходов к формированию наборов данных с использованием лабораторных показателей и связанных с ними заболеваний на примере разработки модели машинного обучения на данных лабораторного обследования, возраста и пола.

МАТЕРИАЛ И МЕТОДЫ

Использована база данных ЭМК платформы Webiomed. Был сформирован набор данных пациентов, содержащий входную информацию о демографических (пол, возраст) и лабораторных данных, даты проведения анализов. Выходные данные были представлены сведениями о заключительном клиническом диагнозе, типе обращения (амбулаторный или стационарный случай) и исходе лечения. Для создания модели выявления подозрений на заболевания были применены следующие алгоритмы классификации: LogisticRegression, GaussianNB, DecisionTree, RandomForest, xgboost, AdaBoost, LGBM, MLP. В качестве метрики качества работы модели была выбрана точность (Accuracy). Данные исходного набора для обучения были обработаны различными способами с целью нормализации. Итоговое число записей набора данных для обучения составило 201 613.

РЕЗУЛЬТАТЫ

Ансамблевые алгоритмы, деревья решений и искусственные нейронные сети показали самые высокие результаты классификации: LGBM — 58%, xgboost — 59%, DecisionTree — 59%, MLP (многослойный персептрон, число скрытых слоев — 3,147 нейронов в каждом) — 61%, RandomForest — 69%. В целях избегания переобучения моделей использовались методы кросс-валидации и регуляризации.

ВЫВОДЫ

Проведенное исследование показало, что использование наборов данных на извлеченных из ЭМК признаков и машинного обучения позволяет создавать модели для выявления подозрений на заболевания, причем поэтапная работа по анализу и подготовке наборов данных, а также применение различных алгоритмов машинного обучения и их настройка позволяют последовательно увеличивать точность работы моделей.

Гусев А.В., Гавриленко Г.Г., Гаврилов Д.В. Разработка модели машинного обучения для интерпретации результатов лабораторной диагностики с целью выявления подозрений на заболевания. Лабораторная служба. 2022;11(2):9‑17, https://doi.org/10.17116/labs2022110219

Поделиться

Подпишитесь на нашу рассылку

Хотите получать интересную и полезную информацию о цифровом здравоохранении и искусственном интеллекте для медицины?
Включайтесь в нашу рассылку!

Присоединяйтесь

Наши группы в соц сетях