Современные технологии искусственного интеллекта (ИИ) открывают действительно впечатляющие возможности в медицине, начиная с более точной диагностики и заканчивая прогнозированием результатов лечения. Для создания соответствующих ИИ-систем обязательным этапом является проведение машинного обучения, для которого, в свою очередь, нужны большие наборы данных. Несмотря на то, что как правило ИИ-системы обучаются на обезличенных медицинских данных, тем не менее их сбор, подготовка и затем использование создают довольно серьезные риски, связанные с утечкой и раскрытием персональной информации.
Данные риски могут быть весьма болезненными не только с точки зрения защиты законных прав пациентов на охрану их персональной и чувствительной медицинской информации, но и с точки зрения различных последствий для организаций, которые эти данные используют в работе.
В этой связи обеспечение надежных и доверенных мер обезличивания медицинских данных, исключающих какие-либо вероятности обратного их превращения из обезличенных в персональные данные – является крайне актуальной и, на самом деле, непростой технической и организационной задачей.
Уязвимости ИИ и риски утечек
ИИ-модели подвержены атакам, позволяющим извлечь исходные данные из обучающих выборок.
Один из видов угроз — атаки на реконструкцию данных, когда злоумышленники восстанавливают изображения или другую информацию, используя параметры модели. Такие инциденты подрывают доверие пациентов и затрудняют доступ к разнообразным датасетам, необходимым для разработки моделей и работы медицинских изделий на базе ИИ.
Анонимизация данных
Безусловно, обязательным этапом подготовки наборов медицинских данных для машинного обучения является процедура анонимизации. Она подразумевает удаление всех явных и косвенных идентификаторов из набора, с помощью которых можно получить указание на конкретного пациента, чьи данные были представлены в наборе. Сюда относят обязательное удаление ФИО, всех номеров документов, связанных с личностью – СНИЛСа, номеров полисов ОМС и ДМС, номеров паспортов и т.д. Обязательно должны быть удалены точные данные о месте жительства, регистрации или временного нахождения.
При этом следует учитывать, что традиционные методы анонимизации и, тем более, и псевдонимизации, могут быть порой недостаточно надежными. Например, даже если из медицинских записей удалить имя и дату рождения пациента, современные алгоритмы способны восстанавливать личность на основе косвенных данных.
В одном из исследований (Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. N. Engl. J. Med. 381, 1684–1686 (2019) была продемонстрирована возможность восстановления контуров лица пациента по данным магнитно-резонансной томографии, что делает такие данные уязвимыми для повторной идентификации. Таким образом, анонимизации и псевдонимизации недостаточно для защиты данных пациента.
Дифференциальная приватность как технология повышения конфиденциальности
Для предотвращения утечек данных сегодня используются так называемые технологии повышения приватности (Privacy-Enhancing Technologies, PETs). Одной из самых эффективных технологий является дифференциальная приватность (DP). DP защищает данные, добавляя шум, что ограничивает влияние отдельных записей на результаты обучения модели. Применение дифференциальной приватности позволяет снизить риск утечек, защитить данные от реконструкции и формально оценить уровень приватности.
В реальной жизни злоумышленники не всегда обладают всемогущими возможностями, как это предполагается в теоретических моделях DP. Исследование показывает, что можно защитить данные пациентов от реальных угроз, сохранив высокую точность модели.
В таком случае, разработчики ИИ сталкиваются с компромиссом: чем выше уровень приватности данных, тем ниже может становиться точность модели. Согласно исследованиям, необходимо соблюдать баланс, чтобы минимизировать потери в производительности модели при существенном повышении безопасности. Этот баланс можно обеспечить, выбирая правильный «бюджет приватности» - формальную оценку уровня приватности. Этот параметр определяет уровень защиты. Настойка параметра – важная и сложная задача, так как высокий бюджет означает низкую защиту, а низкий — ограничивает обучение модели.
Исследование показывает, что при высоких значениях бюджета приватности можно достичь минимального риска утечки данных без значительной потери точности модели.
Синтетические данные
Еще одним направлением в сокращении рисков идентификации пациентов из дата-сетов и ИИ моделей является использование синтетических данных, создаваемых с помощью генеративных алгоритмов. Эти данные не содержат информации о реальных пациентах, что делает их безопасными с точки зрения сохранения приватности. Однако также существуют ограничения: чрезмерное использование синтетических данных может привести к перекосу в обучении и снижению качества моделей.
Федеративное обучение
Федеративное обучение также помогает снижать риски утечек . Федеративное обучение позволяет обучать модели на данных, которые не покидают локальные серверы организаций.
Заключение
Для успешного внедрения ИИ в медицине важно не только улучшать производительность моделей, но и обеспечивать надежную защиту данных. Применение комбинации технологий, таких как дифференциальная приватность, синтетические данные и федеративное обучение, позволит снизить риски утечек данных. Авторы одной из статей выступают за введение дифференциальной приватности как стандартной практики для моделей, работающих с чувствительными данными, даже с учетом некоторых ограничений производительности.
Для повышения прозрачности и доверия со стороны общественности, необходимо разрабатывать стандарты оценки и сертификации технологий защиты данных в ИИ. Такие стандарты помогут медицинским учреждениям и разработчикам систем ИИ выбирать подходящие решения для обеспечения баланса между эффективностью и приватностью.