
Компания К-Скай (разработчик платформы Webiomed) разработала программный сервис обезличивания текстовых медицинских записей Webiomed.Anonymizer для детекции персональных данных в неструктурированных медицинских текстах.
Сбор и обработка больших объемов медицинских данных необходимы как для обучения и мониторинга моделей искусственного интеллекта, так и для проведения научных исследований, где важным аспектом обеспечения безопасности и этичности является использование обезличенных медицинских данных пациентов.
Из-за особенностей ведения электронных медицинских записей в различных медицинских организациях и человеческого фактора, удаление этих данных осложнено большим разнообразием как самих данных, так и привычек их написания. К таким данным относятся не только ФИО, дата рождения, адрес, но также и номера удостоверяющих личность документов, номер самой электронной медицинской карты и даже фамилия врача. Хранение и использование медицинских текстов с целью анализа без предварительного удаления идентификаторов персональных данных создаёт риски утечки чувствительной информации.
Открытые решения для детекции персональных данных показали низкое качество работы на медицинских данных из-за большого количества эпонимов (медицинских терминов, содержащих в себе имена собственные), профессиональных аббревиатур, сокращений и т.д. Кроме того, не все открытые модели для поиска ФИО в тексте справлялись со всем разнообразием имен и фамилий из более чем 40 российских регионов, где работает платформа Webiomed.
Для решения этой задачи был разработан сервис обезличивания, в текущей версии которого поддерживается детекция и удаление атрибутов персональных данных таких как: серия и номер паспорта, СНИЛС, телефон, ИНН, полис ОМС, ФИО, номер медкарты, место работы (организация), должность, e-mail, гражданство, сведения об образовании, дата рождения, адрес и др.
В сервис входит NER модель, предназначенная для поиска именованных сущностей на русском языке, а также ряд разработанных правил и обвязок модели, позволяющих её эффективное использование на медицинских текстах. Сервис был провалидирован на реальных медицинских данных и показал высокие метрики: F1-score выше 0,92 для атрибутов, по которым можно однозначно идентифицировать пациента.
Созданный сервис может быть использован для дополнения к функции базового обезличивания ЭМК, которое предусмотрено текущим интеграционным шлюзом Webiomed.Connect, а также как самостоятельных продукт. Независимые разработчики медицинского программного обеспечения могут использовать его для встраивания в свои продукты и внедрения более надежного метода обезличивания данных.
Страница с описанием продукта: https://webiomed.ru/products/servis-obezlichivaniia-meditsinskikh-dannykh-webiomedanonymizer/