В последнее время, особенно на фоне новости о регистрации СППВР «Webiomed» в качестве медицинского изделия, мы получаем вопросы и комментарии о том, что такое искусственный интеллект в медицине и насколько он присутствует в нашей системе, поскольку мы применяем в продукте ряд широко известных шкал и простых алгоритмов обработки данных, в том числе на основе самой обычной статистики. Мы рады, что своим трудом вызвали интерес к этой теме, что позволяет нам думать, что находимся на верном пути в информатизации здравоохранения.
Мы решили разъяснить этот момент.
Наша система представляет собой SaaS-решение, предназначенное для встраивания в медицинские информационные системы и работающее в автоматическом режиме.
Принцип прост: МИС (или любой другой программный продукт, в котором есть медицинские данные) формирует пакет с обезличенной медицинской информацией и отправляет его в веб-сервис «Webiomed». Система анализирует полученные данные для того, чтобы выявить возможные события со здоровьем пациента в будущем. Мы никак не ограничиваем себя в перечне этих событий и оценок. Но с чего-то надо было начинать и учесть те ограничения, которые накладывались на первую версию: юридические аспекты и необходимые испытания. Поэтому для текущей версии мы поставили ряд конкретных задач, сделав акцент на сердечно-сосудистые заболевания:
- Прогноз вероятности развития сердечно-сосудистого заболевания.
- Оценка вероятности смерти пациента от ССЗ.
- Оценка тяжести пациентов с внебольничной пневмонией т.д.
Цель у нас проста: обратить внимание врача на пациента высокого риска развития заболеваний, их ухудшений и осложнений – чтобы врач обращал и мог приложить дополнительные усилия на предотвращение болезни или осложнения. Многим (особенно кардиологам - давайте вспомним классическое исследование в этой области IMPACT) понятно, что для большинства практикующих врачей очень сложно/или невозможно провести качественную оценку рисков. И даже если врач оценивает пациента по рискам атеросклероза (и надо снять перед ним за это шляпу), то процент ошибок, увы, слишком часто бывает очень велик. Таким образом, мы знаем о давней нерешенной проблеме, когда естественный интеллект в этом направлении не работает или совершает досадные неточности.
Более того, из литературы и наших исследований мы хорошо знаем, что имеется серьезная проблема с точностью готовых шкал и методик оценки риска пациента. Достаточно часто существующие шкалы либо недооценивают, либо переоценивают риски, многие из них сформированы на наборах данных пациентов, этнически не совпадающих с Российской популяцией, сами шкалы были разработаны десятилетия назад на данных, полученных в 1960-80 гг. прошлого века. Поэтому, точность и доказанность, опубликованная по ним в литературе, у нас на поверку не подтверждается и поэтому работает плохо.
В этой связи, в нашем проекте мы делаем упор на собственные модели, полученные машинным обучением. В первую версию системы были включены 2 модели:
- «Прогноз индивидуальной вероятности развития ССЗ». В качестве метода машинного обучения была использована искусственная нейронная сеть. На выходе модель оценивает вероятность развития случаев ССЗ у пациента в течение ближайших 10 лет. Модель обеспечивает следующие параметры: точность (Accuracy): 78%, площадь под ROC-кривой (AUC): 0,77 и эта точность выше, чем у шкал.
- «Прогноз индивидуальной вероятности смерти от ИБС и инсульта». В качестве метода машинного обучения была использована искусственная нейронная сеть. На выходе оценивается вероятность развития смертельных случаев ССЗ у пациента в течение ближайших 10 лет. Модель обеспечивает следующие параметры: точность (Accuracy): 79 %, площадь под ROC-кривой (AUC): 0,78.
Эти модели описаны в технических условиях на продукт. Они были изучены в результате технических и клинических испытаний и их описание представлено в «Протоколе оценки результатов клинических испытаний медицинского изделия», утвержденном НМИЦ Минздрава России.
Теперь о том, что касается практики. Опять же и из литературы, и на собственном опыте пилотных проектов мы хорошо знаем, что представление об «искусственном интеллекте», любой модели на основе нейронных сетей – это «черный ящик». Порой врачи искренне удивляются решению таких моделей. Имеется непонимание, почему в каком-то случае модель дает низкую вероятность события у пациента с «махровым» анамнезом, а у некоторых наоборот – дает очень высокий риск, например, развития инфаркта со «спокойным» анамнезом. Непонимание рождает недоверие. Недоверие приводит к отказу от технологии или сопротивлению его более глубокой интеграции в лечебно-диагностический процесс и внедрению.
Мы видим это и понимаем, что агитация и «продавливание» продукта только ради внедрения технологий искусственного интеллекта – это плохой путь. Поэтому, убедившись в этом еще на этапе прототипа системы и первых пробных запусках, мы приняли решение совмещать в системе разные подходы:
- Основной – это разработка моделей через машинное обучение.
- Создание решающих правил на основании опубликованных и известных алгоритмов оценки риска развития заболеваний.
- Оценка через шкалы и калькуляторы.
Система «Webiomed» не основывается на каком-то одном подходе, например, только на основании ответа нейронной сети или шкалы. Она в обязательном порядке формирует внутри себя оценки по всем доступным алгоритмам и моделям и на основании учета всех возможных данных – и формирует свою итоговую оценку. Врачу выводится подробный протокол, где система показывает – какой из алгоритмов дал какую оценку. И часто так бывает, что разные алгоритмы дают очень разные оценки. Таким образом мы предоставляем врачу полноценную, всестороннюю и комплексную информацию о пациенте в удобном виде. И врач может принимать свое решение с учетом всей этой информации. Таким образом, система поддерживает врача в принятии клинических решений. Конечно, у врача есть выбор, он может игнорировать ее вывод и основываться только на своих знаниях и опыте.
Данный подход рекомендован в ряде заслуживающих доверие международных исследованиях и публикациях. Например, в статье Nanayakkara S и соавт. «Characterising risk of in-hospital mortality following cardiac arrest using machine learning: A retrospective international registry study» приведены результаты сравнительного исследования точности прогноза смерти пациентов от остановки сердца в отделении интенсивной терапии (ОИТ). В этой работе авторы на основании базы данных 1,5 млн. госпитализаций пациентов и анализа различных методов обработки информации с целью создания модели предсказания ССЗ пришли к следующим выводам:
- Существующая шкала оценки риска смерти пациента от остановки сердца APACHE III имеет тенденцию переоценивать смертность, особенно у пациентов старше 60 лет, а шкала ANZROD недооценивает смертность у самых молодых пациентов.
- Для обеспечения клинической полезности нужно использовать данные непосредственно из системы ведения электронной медицинской карты. Модели должны автоматически брать данные из ЭМК, а не требовать их ручной ввод.
- Модели на основе простых статистических методов, таких как регрессия, дают простые для понимания решения со значительной неоднородностью в точности, в то время как модели на основе машинного обучению демонстрируют замечательную точность с худшей интерпретируемостью, создавая проблему «черного ящика».
- С развитием технологий и систем ведения ЭМК наборы данных будут все «богаче», а значит объяснение решений моделей, созданных на основе ML, будут все сложнее.
В этой связи авторы рекомендуют искать компромисс между точностью и интерпретируемостью итоговой модели, при этом упор надо делать на ее «объяснимость». Врачи вряд ли, по мнению авторов, будут доверять продукту, который плохо объясняет свое решение. В этой связи авторы предложили очень интересную кривую поиска такого баланса, представленную на рис. ниже.
Компромисс между точностью прогнозирования и объяснимостью по Nanayakkara S и соавторы.
Мы разделяем такие рекомендации. Наш опыт как пилотных проектов, так и проведенных независимых клинических испытаний и экспертизы системы наглядно показал, что следует очень осторожно подходить к методам ИИ и вдумчиво их применять.
Подход, когда просто берется какой-то набор данных и создается «чистая» модель только на основе глубокого машинного обучения и какого-то из вариантов нейронной сети – которая никак не может объяснить свое решение и не может пройти независимое испытание – не самый разумный.
Мы безусловно никак не настаиваем на собственной правоте и постоянно подвергаем сомнению различные тезисы и подходы, но на данный момент считаем предложенное нами решение сбалансированным.
В заключении хочется процитировать Конфуция: «путь длиной в тысячу ли начинается с первого шага». Мы для себя сделали первый шаг в практике применения искусственного интеллекта в медицине у нас в стране. Путь, по которому мы пошли, мало известен и тернист, горизонты его неочевидны. Но нам эти горизонты представляются широкими, а потенциальные результаты захватывающими.