16 марта 2023

Стандартизованная отчетность в разработках систем искусственного интеллекта

1 123

Андрейченко Анна,
Руководитель направления искусственного интеллекта

Применение технологий искусственного интеллекта в создании различных решений, ориентированных на медицину и здравоохранение, набирает свои обороты. Такие ИИ-системы могут применятся в различных областях, включая диагностику, планирование лечения, консультирование и превентивные меры, а также робототехнику.

Несмотря на присутствие на рынке большого числа различных прикладных решений, создаваемых специализированными компаниями и научно-исследовательскими коллективами, лишь небольшое их число вышло на стадию реального клинического внедрения в медицинских организациях.

Одна из основных причин этого явления состоит в недостаточно высоком уровне доверия к ИИ-системам, которое в свою очередь подпитывается низким качеством отчетности об их создании и проверке, включая доклинические и клинические исследования.

Одним из основных способов снижения риска некачественной отчетности является соблюдение согласованных стандартов. Многие из них одобрены биомедицинскими журналами, описывают информацию, ожидаемую в статьях с результатами исследований и разработок, в том числе в ИИ-сфере. Как правило, они состоят из контрольного списка минимально необходимых пунктов, блок-схемы и сопровождаются более подробным документом, содержащим обоснование и образцы правильной отчетности.

Организация EQUATOR-NETWORK «Повышение качества и прозрачности исследований в области здравоохранения» (Enhancing the QUAlity and Transparency Of health Research»), обладает обширной библиотекой руководств по отчетности, среди которых можно выделить следующие стандарты:

  1. Рекомендации по интервенционным исследованиям (SPIRIT, https://www.equator-network.org/reporting-guidelines/spirit-2013-statement-defining-standard-protocol-items-for-clinical-trials),
  2. Объединенные стандарты отчетности по исследованиям (CONSORT, https://www.equator-network.org/reporting-guidelines/consort),
  3. Стандарты отчетности по диагностической точности (STARD, https://www.equator-network.org/reporting-guidelines/stard/),
  4. Прозрачное представление многопараметрической предиктивной модели для индивидуального прогноза или диагноза (TRIPOD, https://www.equator-network.org/reporting-guidelines/tripod-statement/).

В случае отсутствия стандарта для конкретного проекта исследования активно поощряется расширение существующих. В отсутствие стандартов, специфичных для ИИ, исследователи и читатели нередко сталкиваются с довольно типичными "подводными камнями", представленными в таблице 1.

Этап  Распространенные «подводные камни»
Сбор данных   Многие исследования зависят от ранее собранных данных, которые часто предварительно маркируются для целей, отличных от разработки модели ИИ (например, для отчетов клинической радиологии или гистологии). Более того, при использовании открытых хранилищ данных, часто отсутствует информация о том, где, как и когда были собраны данные. Это серьезные подводные камни, учитывая, насколько важен контекст для оценки риска предвзятости и общей применимости
Разделение наборов данных  Разделение наборов данных часто бывает плохо разграничено. Модели ИИ, разработанные и протестированные с использованием перекрывающихся наборов данных, могут переоценить эффективность (например, способность модели ИИ диагностировать патологию)
Размер и распределение выборки   Тщательное определение размера набора данных, распределения и представления состояния индексов важно как для обучения, так и для тестирования. Производительность большинства моделей классификации может быть гарантирована только на распределениях и классах, адекватно представленных во время обучения модели
Критерии применения   Исключение данных как на уровне пациента, так и на уровне данных требует четкого указания в исследованиях. Отсутствие этой информации не позволяет изучить зависимость модели от конкретных параметров сбора данных (например, модель сканера, используемого для получения данных визуализации)
Доступность модели Очень немногие исследования предоставляют подробную информацию о доступности модели ИИ или медицинского устройства, что исключает возможность независимой валидации и снижает в итоге доверие к работе
Объяснимость Во многих исследованиях не делается попыток объяснить, как модель ИИ достигает своих результатов. Хотя это не всегда возможно, использование вспомогательных средств, таких как карты значимости (saliency maps), помогает добиться интерпретируемости и доверия конечного пользователя
Терминология    В терминологии по-прежнему нет единообразия. Например, "валидация" рассматривается сообществом компьютерных наук как процесс итеративного улучшения производительности модели с использованием обучающих и тестовых наборов данных. Однако биомедицинское сообщество рассматривает "валидацию" как единый процесс оценки производительности "закрытой" модели с использованием невидимого внешнего набора данных. Эти несоответствия могут привести к неоднозначному восприятию заинтересованными сторонами эффективности модели ИИ и общей клинической пользы
Выбор референтного стандарта Этот процесс может включать выведение референтного стандарта из комбинации клинических, радиологических и лабораторных данных. Например, в рамках маммографических исследований использование результатов биопсии для классификации злокачественных и доброкачественных образований будет более точным эталоном, чем интерпретация маммограммы врачом.  Однако, наоборот, получение биопсии из доброкачественных образований сопряжено с этическими и практическими проблемами. Поэтому выбор референтных стандартов требует тщательного планирования
Критерии оценки моделей В настоящее время лишь немногие исследования сравнивают эффективность моделей ИИ с экспертами-клиницистами. Более того, в рамках оценки "in silico" многие исследования, как правило, не проводили валидацию своей модели на внешнем тестовом наборе; это плохая практика, которая, как было показано, приводит к завышенным показателям эффективности модели
Метрики качества моделей  В немногих диагностических исследованиях были представлены "традиционные" показатели результатов, такие как истинно положительные и ложно отрицательные результаты, в виде таблиц сопряженности. Когда использовались другие показатели, часто не приводилось обоснования, почему они были выбраны.

Для того, чтобы устранить имеющиеся проблемы и повысить доверие к исследованиям и разработкам в сфере искусственного интеллекта для медицины и здравоохранения, в настоящее время проводятся работы по расширению следующих стандартов:

1.    SPIRIT (Standard Protocol Items: Recommendations for Interventional Trials) 2013

2.    CONSORT (Consolidated Standards of Reporting Trials) 2010

3.    STARD (Standards for Reporting of Diagnostic Accuracy Studies) 2015

4.    TRIPOD (Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis) 2015

Первое из руководств по отчетности направлено на повышения качества отчетности по протоколам клинических исследований (SPIRIT-AI), а также конечных результатов самих исследований (CONSORT-AI).

В совокупности эти документы призваны помочь читателям:

  • понять предпосылки, обоснование, популяцию, методы, статистический анализ и этико-правовые аспекты
  • помочь воспроизвести ключевые аспекты испытания (включая реализацию вмешательства)
  • помочь в оценке научной достоверности исследования.

Чтобы достичь этих целей для медицинских исследований ИИ, SPIRIT-AI и CONSORT-AI содержат 15 и 14 новых пунктов, посвященных ИИ. Эти пункты сосредоточены вокруг 4 общих тем, посвященных вопросам, отмеченным в таблице 1: (1) модель ИИ, (2) набор данных, (3) инфраструктура и (4) прозрачность.

1. Модель ИИ.

Во-первых, необходимо предоставить подробную информацию о разработке и любой последующей валидации модели ИИ, поскольку об этом часто не сообщается в исследованиях по клинической валидации. Затем необходимо определить четкий сценарий использования в дополнение к информации о том, как модель будет вписываться в существующие клинические рабочие процессы и взаимодействовать с конечными пользователями. SPIRIT-AI и CONSORT-AI подчеркивают важность четких критериев того, кто (опыт и уровень квалификации) интерпретирует результаты, а также как интерпретировать результаты (например, диагностическую вероятность или классификацию) в контексте принятия клинического решения.

2. Набор данных.

Необходимо сообщить о критериях приемлемости как на уровне участников, так и на уровне данных. Разумно хранить их в виде отдельных пунктов. Например, должны быть четко сформулированы минимальные требования к вводу данных, которые могут быть связаны с разрешением изображения или форматом данных.

Кроме того, должны быть описаны четкие процедуры получения, отбора и предварительной обработки данных, чтобы обеспечить стандартизацию входных данных на разных исследовательских участках.

3. Инфраструктура.

Учитывая сложность предлагаемых систем ИИ, несколько пунктов посвящены описанию конкретных требований к программному и аппаратному обеспечению и обучению персонала, которые необходимы для внедрения вмешательства.

Эти требования можно разделить на требования на месте и вне места проведения исследования. И те, и другие крайне важно определить при оценке внедрения таких вмешательств.

4. Прозрачность.

Как SPIRIT-AI, так и CONSORT-AI подчеркивают, что прозрачность является важным моментом в процессе представления отчета об исследовании. Существуют пункты, призывающие указывать наличие и предполагаемое использование системы ИИ в названии или аннотации, что позволяет читателям однозначно понять предполагаемое использование  ИИ-вмешательства.

Авторам рекомендуется указывать номер версии модели ИИ, связанной с исследованием, при этом любые изменения в ней требуют четкого обоснования. Существует рекомендация "описывать результаты любого анализа ошибок в работе и то, как были выявлены ошибки, если применимо".

Регулирующие органы отмечают, что о неблагоприятных инцидентах, возникающих в результате использования диагностического ИИ в качестве медицинского изделия, сообщается значительно меньше, и их трудно зафиксировать, поскольку значительная часть вреда для пользователей является косвенной. Наконец, есть пункты, связанные с тем, как можно получить доступ к модели ИИ и/или его коду, включая любые ограничения на доступ или повторное использование.

В дополнение к SPIRIT-AI и СONSORT-AI, дополнительные конкретные рекомендации, касающиеся отчетности по исследованиям диагностической точности и многовариантным прогностическим исследованиям, будут представлены в рамках инициатив STARD-AI и TRIPOD-AI.

Эти инициативы обеспечат охват ИИ-специфическими руководствами по отчетности всего цикла исследований, начиная с составления протокола исследования и заканчивая представлением результатов испытаний различных методик. Эти инструменты окажут значительное влияние на качество и воспроизводимость исследований.

Также отдельно для разработок систем ИИ в области медицинской визуализации в 2020 был предложен чек-лист CLAIM  CLAIM был создан по образцу руководства STARD и расширен для учета особенностей применения ИИ в медицинской визуализации, включая классификацию и разметку изображений, построение изображений, анализ текста и оптимизацию рабочего процесса в лучевой диагностике.

Кроме этого был предложен универсальный IJMEDI чек-лист  для детальной оценки процессов разработки и валидации медицинского ИИ вне зависимости от направления его применения в медицине.

Дополнительные гайдлайны, связанные с медицинским ИИ, представлены здесь: https://pubs.rsna.org/page/ai/blog/2022/09/ryai_editorsblog0928

Приведенные выше стандарты, гайдлайны и чек-листы во много пересекаются и конечный выбор при описании научного исследования в области медицинских ИИ технологий зависит от требуемой формы отчетности, а также требований научных изданий.

На более широком системном уровне данные стандарты, гайдлайны и чек-листы ставят перед собой цели максимизации (1) клинической и экономической эффективности проводимых исследований систем ИИ, (2) помощи регулирующим органам, врачам и ученым в процессах оценки и утверждения этих систем, а также, в конечном счете, (3) повышения качества, оказываемой помощи пациентам, опираясь на достоверные и воспроизводимые результаты исследований в области технологий искусственного интеллекта.

Публикация подготовлена с использованием материалов работы «Developing Specific Reporting Standards in Artificial Intelligence Centred Research», https://journals.lww.com

Пожалуйста, оцените эту статью
( 5 из 5,
оценили: 2)
Ваша оценка: Не ставилась

Еще по этой теме

Обратите внимание на похожие статьи

06 Фев 2023

Калибровка моделей: зачем и как?

Медицинская прогнозная аналитика на основе большого количества данных, использующая алгоритмы машинного обучения или искусственного интеллекта приобретает всю большую популярность. Создаваемые …

24 Янв 2023

Будущее медицины - дистанционное наблюдение за пациентами

Мониторинг состояния здоровья с помощью устройств для непрерывного сбора данных выходит за рамки стандартного удаленного наблюдения за пациентом. Постоянный пассивный …

30 Авг 2022

Больница будущего – больница «без стен»

Известная аналитическая компания Deloitte выпустила отчет «Hospitals in the future ‘without’ walls. What does this mean for health care delivery …

Подпишитесь на нашу рассылку

Хотите получать интересную и полезную информацию о цифровом здравоохранении и искусственном интеллекте для медицины?
Включайтесь в нашу рассылку!

Мы рекомендуем

Нормативно-правовое регулирование искусственного интеллекта в здравоохранении России

Просмотров 15 640 4 недели назад

Применение AutoML и MLflow при создании прогнозных моделей в медицине: опыт Webiomed

Просмотров 1 555 10 месяцев, 4 недели назад

Стандартизованная отчетность в разработках систем искусственного интеллекта

Просмотров 1 123 1 год назад

Калибровка моделей: зачем и как?

Просмотров 2 574 1 год, 1 месяц назад

Присоединяйтесь

Наши группы в соц сетях