О журнале Издательская этика Редколлегия Редакционный совет Редакция Для авторов Контакты
Russian

Экспорт новостей

Журнал в базах данных

eLIBRARY.RU - НАУЧНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА



crossref.org
vak.ed.gov.ru/vak

GoogleАкадемия

Google Scholar

Главная arrow Архив номеров arrow №1 2025 (71) arrow ПРИМЕНЕНИЕ ГЛУБОКОГО МАШИННОГО ОБУЧЕНИЯ ДЛЯ СОЗДАНИЯ МОДЕЛИ ИЗВЛЕЧЕНИЯ ДАННЫХ О ЛЕКАРСТВЕННОЙ ТЕРАПИИ ИЗ ЭЛЕКТРОННЫХ МЕДИЦИНСКИХ КАРТ
ПРИМЕНЕНИЕ ГЛУБОКОГО МАШИННОГО ОБУЧЕНИЯ ДЛЯ СОЗДАНИЯ МОДЕЛИ ИЗВЛЕЧЕНИЯ ДАННЫХ О ЛЕКАРСТВЕННОЙ ТЕРАПИИ ИЗ ЭЛЕКТРОННЫХ МЕДИЦИНСКИХ КАРТ Печать
27.03.2025 г.

DOI: 10.21045/2071-5021-2025-71-1-8

1 Казакова М.А., 2Андрейченко А.Е., 3Гусев А.В.
1 ООО «Ритейл», Казань, Россия;
2 OOO «К-Скай», Петрозаводск, Россия;
3 ФГБУ «Центральный научно-исследовательский институт организации и информатизации здравоохранения» Министерства здравоохранения Российской Федерации, Москва, Россия

Резюме

Актуальность: Развитие Единой государственной информационной системы в сфере здравоохранения и системы электронных медицинских документов требует внедрения интеллектуальных технологий автоматического анализа медицинских документов, где ключевым методом является извлечение именованных сущностей (NER) для обработки информации о лекарственных назначениях.

Цель работы: Оценить эффективность методов глубокого машинного обучения для автоматизированного извлечения данных о лекарственной терапии из электронных медицинских карт в условиях российской системы здравоохранения.

Материалы и методы. Проанализировано 158 деидентифицированных медицинских записей с платформы WEBIOMED. Разработана система разметки на основе восьми специализированных тегов, соответствующих стандартам HL7 FHIR и ЕСКЛП. Применены модели машинного обучения: BiLSTM и трансформеры (BERT, DistilBERT, RoBERTa, XLNet).

Результаты. Модель BiLSTM достигла общей точности 98% на тестовой выборке. Среди трансформеров лучшие результаты показали BERT base model (F1-мера 58,6%) и DistilBERT (F1-мера 54,5%) на 15-й эпохе обучения.

Заключение. Разработанный подход демонстрирует высокую эффективность в извлечении информации о лекарственных препаратах из электронных медицинских карт. Модели BiLSTM и BERT-base показали наилучшие результаты в решении поставленной задачи.

Область применения результатов. Автоматизация обработки медицинской документации, поддержка принятия клинических решений, оптимизация работы с электронными медицинскими картами в российской системе здравоохранения.

Ключевые слова: электронные медицинские карты; обработка естественного языка; извлечение именованных сущностей; глубокое обучение; BERT; BiLSTM; лекарственные препараты; медицинская информатика; искусственный интеллект; цифровое здравоохранение.

Контактная информация: Казакова Мария Анатольевна, email: Этот e-mail защищен от спам-ботов. Для его просмотра в вашем браузере должна быть включена поддержка Java-script
Финансирование. Исследование не имело спонсорской поддержки.
Конфликт интересов. Авторы декларируют отсутствие явных и потенциальных конфликтов интересов в связи с публикацией данной статьи.
Соблюдение этических стандартов. Данный вид исследования не требует прохождения экспертизы локальным этическим комитетом.
Для цитирования: Казакова М.А., Андрейченко А.Е., Гусев А.В. Применение глубокого машинного обучения для создания модели извлечения данных о лекарственной терапии из электронных медицинских карт. Социальные аспекты здоровья населения [сетевое издание] 2025;

APPLYING DEEP MACHINE LEARNING TO CREATE A MODEL FOR EXTRACTING MEDICATION DATA FROM ELECTRONIC HEALTH RECORDS
1 Kazakova M.A., 2Andreychenko A.E., 3Gusev A.V.
1RETAIL LLC, Kazan, Russia;
2LLC «K-Sky», Petrozavodsk, Russia;
3Research Institute of Health of the Ministry of Health of the Russian Federation, Moscow, Russia

Abstract

Significance. The development of the Unified State Health Information System and the Electronic Medical Documents System requires the implementation of intelligent technologies for automatic analysis of medical documents, where Named Entity Recognition (NER) serves as a key method for processing medication prescription information.

Purpose. To evaluate the effectiveness of deep machine learning methods for automated extraction of medication data from electronic health records within the Russian healthcare system.

Material and Methods. 158 de-identified medical records from the WEBIOMED platform were analyzed. A markup system based on eight specialized tags compliant with HL7 FHIR and ESKLP standards was developed. The following machine learning models were applied: BiLSTM and transformers (BERT, DistilBERT, RoBERTa, XLNet).

Results. The BiLSTM model achieved 98% overall accuracy on the test set. Among the transformers, BERT base model (F1-score 58.6%) and DistilBERT (F1-score 54.5%) showed the best results at the 15th epoch of training.

Conclusions. The developed approach demonstrates high efficiency in extracting medication information from electronic health records. BiLSTM and BERT-base models were second to none in managing the task.

Scope of application: Automation of medical documentation processing, clinical decision support, and optimization of electronic health record management in the Russian healthcare system.

Keywords: electronic health records; natural language processing; named entity recognition; deep learning; BERT; BiLSTM; medications; medical informatics; artificial intelligence; digital healthcare.

Corresponding author: Maria A. Kazakova, email: Этот e-mail защищен от спам-ботов. Для его просмотра в вашем браузере должна быть включена поддержка Java-script
Information about authors:
Kazakova M.A
., https://orcid.org/0000-0002-8669-3383
Andreychenko A.E., https://orcid.org/0000-0001-6359-0763
Gusev A.V., https://orcid.org/0000-0002-7380-8460
Acknowledgments. The study had no sponsorship.
Competing interests. The authors declare the absence of any conflicts of interest regarding the publication of this paper.
Compliance with ethical standards. This study does not require a conclusion from the Local Ethics Committee.
For citation: Kazakova MA, Andreychenko AE, Gusev AV. Applying deep machine learning to create a model for extracting medication data from electronic medical records. Social'nye aspekty zdorov'a naselenia [serial online] 2025; (In Rus).

Введение

Единая государственная информационная система в сфере здравоохранения (ЕГИСЗ) и система электронных медицинских документов (СЭМД) выступают основой цифровой трансформации российского здравоохранения, формируя единый цифровой контур на базе международных стандартов, опираясь на международные стандарты структурирования медицинских данных, такие как HL7 FHIR, SNOMED CT и LOINC [1].

Стандартизация медицинских данных стала критически важной для эффективной обработки растущих объемов информации. Внедрение единых стандартов позволяет оптимизировать существующие процессы обмена данными между медицинскими организациями, минимизировать ошибки при передаче информации и обеспечивать семантическую интероперабельность медицинских систем. СЭМД, включающая около 200 видов документов, обеспечивает юридически значимый электронный документооборот между медицинскими организациями [2].

Одним из важнейших направлений развития ЕГИСЗ становится внедрение интеллектуальных технологий автоматического анализа медицинских документов. Ключевым методом такого анализа является извлечение именованных сущностей, NER (Named Entity Recognition), позволяющий автоматически извлекать информацию из электронных медицинских карт (ЭМК). В контексте медицинских текстов, NER лекарственных средств включают в себя не только названия лекарственных препаратов, их формы выпуска, дозировки, но и назначенное с помощью данных препаратов лечение, включающее данные о кратности и курсах приема. Например, в предложении «Пациенту назначен цефтриаксон 1 г два раза в день в течение недели» NER будут: «цефтриаксон» (название препарата), «1 г» (дозировка), «два раза в день» (кратность) и «в течение недели» (курс приема препарата).

В последние годы опубликованы значимые исследования по проблеме NER в медицинских текстах. Corcoran C.M. et al. [3] и Gaviria-Valencia S. et al. [4] используют правила и шаблоны, основанные на лингвистических особенностях. Evans D.A. et al. [5] и Wu H.Y. et al. [6] применяют статистические методы и машинное обучение для автоматического обнаружения и классификации NER.

Исследования Саховского А.С. и Тутубалиной Е.В. [7] по распознаванию NER на русском языке сфокусировались на корпусе русскоязычных пользовательских отзывов о лекарственных препаратах или ограниченных корпусах медицинских текстов. В нашей работе мы использовали реальные тексты из ЭМК, что делает нашу работу более актуальной и приближенной к реальной медицинской практике.

Цель исследования: оценить эффективность методов глубокого машинного обучения для автоматизированного извлечения данных о лекарственной терапии из электронных медицинских карт в условиях российской системы здравоохранения.

Материалы и методы

В исследовании использовались данные ЭМК с платформы WEBIOMED, интегрированной с региональными медицинскими информационными системами (МИС) и соответствующей требованиям ГОСТ Р 52636-2006 «Электронная история болезни» [8]. Информационная безопасность и защита персональных данных обеспечивались в соответствии с требованиями Федерального закона №152-ФЗ «О персональных данных» [9] и приказа ФСТЭК России №21 [10]. Все данные были деидентифицированы с использованием специализированного программного обеспечения, сертифицированного по требованиям безопасности информации [11].

Анализировались 158 медицинских записей, содержащих результаты осмотров и рекомендации по лечению. Это позволило выявить взаимосвязи между лекарственными препаратами, описанные в рамках одного предложения. Задача заключалась в определении типа семантического отношения между выделенными сущностями лекарств, аналогично выписке рецепта (см. рис. 1).

Рис. 1
Рис.1. Пример размеченного текста, содержащего сущности лекарственного препарата

Как можно заметить одна сущность могла участвовать в нескольких отношениях одновременно, то есть «таб.» относилась и к «цетиризину», «зиртеку», «зодаку».

Разметка данных проводилась с помощью инструмента MedTator, позволяющего конвертировать размеченные тексты в формат IOB для последующего машинного обучения [12].

Авторами разработанная система разметки медицинских данных основана на восьми специализированных тегах, соответствующих стандартам HL7 FHIR [13] и справочника ЕСКЛП [14]. Каждый тег предназначен для структурированного хранения определенного аспекта информации о лекарственном препарате: «prep» - кодирует международные непатентованные наименования (МНН) лекарственных средств согласно государственному реестру лекарственных средств; «release_form» - определяет лекарственную форму в соответствии с номенклатурой НСИ; «doza» - «doza» - фиксирует количественные показатели дозировки в соответствии с Государственной фармакопеей РФ и стандартами единиц измерения, принятыми в российском здравоохранении (мг, г, мл, и т.д.); «doza_release_form» - содержит детализированные указания по применению (например, «2 таблетки за прием»); «time» - описывает режим дозирования в течение суток; «use_way» - указывает способ введения препарата по утвержденной классификации; «srok» - определяет продолжительность курса лечения; «concentration» - отражает концентрацию действующего вещества.

Результат размеченного теста с представлением отношений всех тегов лекарственного препарата в записях ЭМК согласно схеме, представлен на рисунке 2.

Рис. 2
Рис. 2. Визуализация отношений тегов лекарственных препаратов в записях электронных медицинских карт

MedTator позволяет пользователю конвертировать аннотации в различные форматы для последующего использования при решении задач обработки естественного языка [12]. Размеченные нами тексты были конвертированы в формат IOB, который используется для обучения моделей распознавания именованных сущностей. В результате, после разметки с помощью инструмента MedTator, можно получить следующее представление формата тегов IOB, как показано на рисунке 3.

Рис. 3
Рис. 3. Пример IOB-разметки медицинских записей из электронных медицинских карт

Стоит отметить, что мы поставили задачу обучения нейронных моделей с учетом нашего списка антигистаминных (противоаллергических) препаратов. Поэтому при разметке датасета мы учли требуемый нам список лекарственных препаратов, и некоторые теги препаратов, которые не входят в наш список, были помечены тегом «О».

Полученный датасет был разделен на обучающую (5997), тестовую (957) и валидационную (700) выборки (рис.4).

Рис. 4
Рис. 4. Пример выгруженного общего датасета с тегами после разметки в MedTator

На следующем этапе проводилась подготовка полученных наборов данных для передачи в модель путем удаления знаков препинания, токенизации, лематизации.

После извлечения NER лекарственных средств модели предсказывали теги лекарственных препаратов на валидационном наборе данных.

Качество моделей оценивалось с помощью микроусреднения, которое учитывает все классы, усредняя показатели по каждому из них (precision, recall, F1-мера).

Далее для каждого класса тегов лекарственных препаратов (B-prep, I-time I-prep, O, I-concentration, B-concentration, I-use_way, B-srok, I-doza, B-release_form, B-time, B-doza) вычислялись метрики и объединялись в единую метрику (accuracy) с помощью микроусреднения.

Для распознавания лекарственных средств в медицинских текстах первоначально была применена рекуррентная нейронная сеть BiLSTM, эффективная в обработке последовательных данных. Модель использовала векторное представление слов word2vec для учета семантических связей между терминами. Обучение проводилось с применением оптимизатора Adam и функции потерь Cross-Entropy [15], с оценкой качества по метрикам precision, recall и F1-мера.

Второй подход включал применение предварительно обученных моделей-трансформеров (BERT, DistilBERT, RoBERTa, XLNet) с использованием библиотеки Simple Transformers. Эти модели, обученные на масштабных текстовых корпусах, зарекомендовали себя в задачах обработки естественного языка [16,17,18]. Процесс включал адаптацию моделей под специфику медицинских текстов, их настройку и комплексную оценку эффективности.

Результаты

Результаты обучения модели BiLSTM продемонстрировали существенное улучшение показателей. Функция потерь стабильно снижалась как на обучающей выборке (с 2,33 до 0,07), так и на проверочной (с 0,74 до 0,15), что подтверждает эффективность процесса обучения (рис. 5). На обучающей выборке точность выросла с 88% до 98%, а на проверочной - с 95% до 96%.

Рис. 5
Рис. 5. Графики значений потерь и точности как для обучающих, так и для тестовых наборов

Модель продемонстрировала отсутствие переобучения, не показывая резкого роста валидационных потерь или снижения точности. Это означает, что она хорошо обобщает данные и может успешно предсказывать новые, не использованные при обучении. Модель не просто запоминает примеры, а выявляет общие паттерны, позволяющие ей работать с новыми данными. Это важный фактор, так как машинным моделям необходимо не только хорошо работать на обучающем наборе, но и обобщать знания для новых ситуаций.

Тестирование показало высокую общую точность (98%), при этом модель особенно хорошо справлялась с распознаванием лекарственных форм и указаний по дозировке. (рис. 6).

Рис. 6
Рис. 6. Оценка качества модели BiLSTM на основе метрик точности (precision), полноты (recall) и F1-меры для каждого класса.

В целом модель LSTM показала высокую точность и хорошую способность классифицировать некоторые классы, такие как I-release_form и B-doza_release_form. Значения метрик для некоторых классов (B-prep, I-use_way , I-time I-prep, O, I-concentration, B-concentration, I-use_way, B-srok, I-doza, B-release_form, B-time, B-doza) равны 0 или достаточно низкие, что указывает на необходимость проработки этих классов дополнительно. Средняя F1-мера по всем классам (macro avg) составляет 25%, а взвешенная средняя F1-мера (weighted avg) оказалась лучше – 97%. Результаты верно и неверно распознанных сущностей моделью BiLSTM представлены на рисунке 7.

Рис. 7
Рис. 7. Реализация вывода верно (А) и ошибочно (Б) распознанных сущностей лекарственных препаратов обученной моделью BiLSTM на выбранном случайном образце из тестового набора данных

Сравнительный анализ моделей-трансформеров на начальном этапе обучения (5 эпох) выявил преимущество BERT base model. Эта модель продемонстрировала наилучшие показатели полноты распознавания (45,9%) и сбалансированности результатов (F1-мера 50,8%). DistilBERT base показала близкие результаты по точности (43,4%), но уступила по остальным параметрам.

Модели RoBERTa base и XLNet продемонстрировали более скромные результаты. RoBERTa base при хорошей точности (41,3%) имела низкие показатели полноты распознавания, а XLNet требовала существенной доработки по всем параметрам.

Для улучшения результатов было проведено дополнительное обучение всех моделей с пошаговым увеличением количества эпох до достижения стабильных показателей на валидационной выборке. Результаты представлены на рисунке 8.

Рис. 8
Рис. 8. Изменения динамики значений метрик моделей в процессе обучения

В таблице 1 представлен сравнительный анализ метрик для различных моделей, полученных на разных эпохах обучения.

Таблица 1

Сравнительный анализ метрик для различных моделей (BERT, DistilBERT, RoBERTa, XLNet) на разных эпохах обучения

Модель Метрика 5 эпох 10 эпох 15 эпох 20 эпох 25 эпох 30 эпох
BERT base model Precision 45,9 53,02 54,4 51,7 47,9 48,4
Recall 56,9 58,5 63,6 61 63,1 63,6
F1-мера 50,8 55,6 58,6 56 54,4 54,9
DistilBERT Precision 33,8 62,6 60 62,1 63,6 61
Recall 33,8 62,6 60 62,1 63,6 61
F1-мера 38,04 55,6 54,5 53,9 55,7 54,6
RoBERTa base Precision 41,3 35,1 40,4 43,1 44 46,3
Recall 15,76 40,4 45,4 50,1 50,9 52,9
F1-мера 15,76 40,4 45,4 50,1 50,9 52,9
XLNet Precision 23,1 32,3 32,7 32,6 34,4 32,6
Recall 76,9 47,7 51,8 52,8 52,8 52,8
F1-мера 11,5 38,5 39,3 40,3 41,7 40,3

Сравнительный анализ эффективности моделей проводился на протяжении 30 эпох обучения с оценкой по трем ключевым метрикам.

Наилучшие результаты показали модели BERT-base (F1-мера 58,6%) и DistilBERT (F1-мера 54,5%), достигнув максимальной эффективности на 15-й эпохе обучения. При дальнейшем обучении у обеих моделей наблюдалось снижение показателей, что указывает на оптимальность остановки обучения на 15-й эпохе. Модели RoBERTa base (достигла максимальной F1-меры 52,9% на 30-й эпохе) и XLNet (показала наилучший результат F1-меры 41,7% на 25-й эпохе) продемонстрировали более скромные результаты.

Полученные результаты позволяют рекомендовать BERT-base и DistilBERT как наиболее эффективные модели для решения поставленной задачи при условии ограничения процесса обучения 15 эпохами. На рисунке 9 представлены результаты распознавания сущностей лекарственных препаратов, полученные с помощью моделей на основе архитектуры Transformer.

Рис. 9
Рис. 9. Вывод распознанных сущностей лекарственных препаратов моделями на основе архитектуры Transformer

Обсуждение

Результаты нашего исследования демонстрируют эффективность применения методов глубокого обучения для извлечения информации о лекарственных препаратах из медицинских текстов на русском языке. Мы сравнили производительность различных архитектур нейронных сетей, включая рекуррентные нейронные сети (BiLSTM) и модели на основе трансформеров (BERT, DistilBERT, RoBERTa, XLNet).

Модель BiLSTM показала впечатляющие результаты с общей точностью 98% на тестовой выборке. Это свидетельствует о высокой способности модели к обобщению и эффективному извлечению именованных сущностей из медицинских текстов. Однако стоит отметить, что для некоторых классов (например, B-prep, I-use_way, I-time I-prep) модель продемонстрировала низкие показатели, что указывает на необходимость дальнейшей оптимизации для улучшения распознавания этих конкретных сущностей.

Среди моделей на основе трансформеров BERT base model и DistilBERT показали наилучшие результаты. BERT достигла максимальной полноты (63,6%) и F1-меры (58,6%) на 15 эпохе обучения. Эти результаты согласуются с предыдущими исследованиями, подтверждающими эффективность BERT и его облегченных версий в задачах NLP [16, 17].

Интересно отметить, что RoBERTa и XLNet, несмотря на их успехи в других задачах NLP [18,19], показали менее удовлетворительные результаты в нашем эксперименте. Это может быть связано со спецификой медицинских текстов на русском языке или особенностями нашей схемы разметки. Данное наблюдение подчеркивает важность тщательного выбора и настройки моделей для конкретных задач и доменов.

Сравнивая результаты BiLSTM и трансформеров, мы наблюдаем, что BiLSTM показала более высокую общую точность. Однако важно отметить, что модели на основе трансформеров могут лучше справляться с более сложными лингвистическими структурами и контекстуальными зависимостями, что может быть критически важно при работе с медицинскими текстами.

Наше исследование имеет несколько ограничений. Во-первых, размер датасета (158 записей) относительно небольшой, что может ограничивать обобщаемость результатов. Во-вторых, мы фокусировались на ограниченном списке антигистаминных препаратов, что может не полностью отражать разнообразие лекарственных средств в реальной клинической практике.

Несмотря на эти ограничения, наше исследование вносит значительный вклад в развитие методов NLP для обработки медицинских текстов на русском языке. Мы продемонстрировали эффективность различных архитектур нейронных сетей для извлечения информации о лекарственных препаратах и выявили их сильные и слабые стороны.

Будущие исследования могут быть направлены на расширение датасета, включение более широкого спектра лекарственных препаратов и дальнейшую оптимизацию моделей. Кроме того, интересным направлением может стать исследование возможностей переноса обучения (transfer learning) с использованием предобученных на медицинских текстах моделей для улучшения производительности на небольших датасетах.

Заключение

В данном исследовании мы разработали комплексный подход к извлечению информации о лекарственных препаратах из электронных медицинских карт в различных регионах России. Ключевым элементом нашей работы стала разработка детальной схемы разметки данных электронных медицинских карт, позволяющей эффективно идентифицировать и классифицировать информацию о методах лечения, с особым акцентом на определение семантических отношений между лекарственными препаратами в рамках одного предложения.

Сравнительный анализ различных нейросетевых архитектур для решения задачи извлечения сущностей лекарственных препаратов из реальных медицинских текстов показал, что модели BiLSTM и BERT-base демонстрируют высокую эффективность.

Наше исследование вносит значительный вклад в развитие методов NLP для обработки медицинских текстов на русском, создавая прочную основу для будущих инноваций в сфере автоматической обработки медицинской информации. Это создает мощный инструмент для врачей и исследователей, способствуя принятию более обоснованных клинических решений и повышению качества медицинской помощи.

Библиография

  1. Орлов Г.М. Цифровое здравоохранение в России: история трех десятилетий развития и тренды перехода к ориентации на пациента. Врач и информационные технологии 2024;1(1):6-27. DOI: 10.25881/18110193_2024_1_6.
  2. Об утверждении стратегического направления в области цифровой трансформации здравоохранения: Распоряжение Правительства Российской Федерации от 17.04.2024 № 959-р. Собрание законодательства Российской Федерации 2024; № 17, ст. 2749.
  3. Corcoran CM, Mittal VA, Bearden CE, Gur RE, Hitczenko K, Bilgrami Z, Savic A, et al. Language as a biomarker for psychosis: A natural language processing approach. Schizophr Res 2020 Dec;226:158-166. DOI: 10.1016/j.schres.2020.04.032.
  4. Gaviria-Valencia S, Murphy SP, Kaggal VC, et al. Near Real-time Natural Language Processing for the Extraction of Abdominal Aortic Aneurysm Diagnoses From Radiology Reports: Algorithm Development and Validation Study. JMIR Med Inform 2023;11:e40964. doi:10.2196/40964
  5. Evans DA, Brownlow ND, Hersh WR, et al. Automating Concept Identification in the Electronic Medical Record: An Experiment in Extracting Dosage Information. Proc AMIA Annu Fall Symp 1996:388-392.
  6. Wu HY, Lu D, Hyder M, et al. DrugMetab: An Integrated Machine Learning and Lexicon Mapping Named Entity Recognition Method for Drug Metabolite. CPT Pharmacometrics Syst Pharmacol 2018;7:709-717. DOI: 10.1002/psp4.12340.
  7. Саховский А.С., Тутубалина Е.В. Межъязыковой перенос знаний при извлечении информации о лекарствах из пользовательских текстов. Труды ИСП РАН 2021;33(6):217-228. DOI: 10.15514/ISPRAS-2021-33(6)-15.
  8. ГОСТ Р 52636-2006. Электронная история болезни. Москва: Стандартинформ; 2006.
  9. О персональных данных: Федеральный закон от 27 июля 2006 г. № 152-ФЗ. Собрание законодательства РФ. 2006;31(1):3451.
  10. Об утверждении состава и содержания организационных и технических мер по обеспечению безопасности персональных данных при их обработке в информационных системах персональных данных. Приказ от 18 февраля 2013 г. № 21. Федеральная служба по техническому и экспортному контролю (ФСТЭК России). Режим доступа: https://fstec.ru/dokumenty/vse-dokumenty/prikazy/prikaz-fstec-rossii-ot-18-fevralya-2013-g-n-21 (Дата обращения: 21.02.2024).
  11. Макарова Е.А., Андрейченко А.Е., Казакова М.А. и др. Обезличивание медицинских текстовых данных с целью разработки и внедрения систем искусственного интеллекта. Правовая информатика 2024;3:96-105. DOI: 10.24682/1994-1404-2024-3-96-105.
  12. He H, Fu S, Wang L, et al. MedTator: a serverless annotation tool for corpus development. Bioinformatics 2022;38(6):1776-1778. DOI: 10.1093/bioinformatics/btab880.
  13. HL7 FHIR: стандарт. Режим доступа: https://fhir.ru/ (Дата обращения: 01.02.2024).
  14. Единый справочник-каталог лекарственных препаратов. Режим достуа: https://esklp.egisz.rosminzdrav.ru/documents (Дата обращения: 22.02.2024).
  15. Armengol-Estapé J, Soares F, Marimon M, Krallinger M. PharmacoNER Tagger: a deep learning-based tool for automatically finding chemicals and drugs in Spanish medical texts. Genomics Inform 2019;17(2):e15. DOI: 10.5808/GI.2019.17.2.e15.
  16. Devlin J, et al. BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805. 2018.
  17. Kalyan KS, Rajasekharan A, Sangeetha S. AMMUS: A survey of transformer-based pretrained models in natural language processing. arXiv preprint arXiv:2108.05542. 2021.
  18. Dirkson A, Verberne S, Kraaij W. Breaking BERT: Understanding its Vulnerabilities for Named Entity Recognition through Adversarial Attack. arXiv preprint arXiv:2109.11308. 2021.

References

  1. Orlov GM. Tsifrovoe zdravookhranenie v Rossii: istoriya trekh desyatiletiy razvitiya i trendy perekhoda k orientatsii na patsienta .Digital healthcare in Russia: history of three decades of development and trends of transition to patient orientation. Vrach i informatsionnye tekhnologii 2024;1(1):6-27. DOI: 10.25881/18110193_2024_1_6. (In Rus.).
  2. Ob utverzhdenii strategicheskogo napravleniya v oblasti tsifrovoy transformatsii zdravookhraneniya. On approval of strategic direction in the field of digital transformation of healthcare. Rasporyazhenie Pravitel'stva Rossiyskoy Federatsii ot 17.04.2024 № 959-r. Sobranie zakonodatel'stva Rossiyskoy Federatsii 2024;17:2749. (In Rus.).
  3. Corcoran CM, Mittal VA, Bearden CE, Gur RE, Hitczenko K, Bilgrami Z, Savic A, Cecchi GA, Wolff P. Language as a biomarker for psychosis: A natural language processing approach. Schizophr Res. 2020 Dec;226:158-166. doi: 10.1016/j.schres.2020.04.032. PMID: 32499162; PMCID: PMC7704556.
  4. Gaviria-Valencia S, Murphy SP, Kaggal VC, et al. Near Real-time Natural Language Processing for the Extraction of Abdominal Aortic Aneurysm Diagnoses From Radiology Reports: Algorithm Development and Validation Study. JMIR Med Inform. 2023;11:e40964. doi:10.2196/40964
  5. Evans DA, Brownlow ND, Hersh WR, et al. Automating Concept Identification in the Electronic Medical Record: An Experiment in Extracting Dosage Information. Proc AMIA Annu Fall Symp. 1996:388-392.
  6. Wu HY, Lu D, Hyder M, et al. DrugMetab: An Integrated Machine Learning and Lexicon Mapping Named Entity Recognition Method for Drug Metabolite. CPT Pharmacometrics Syst Pharmacol. 2018;7:709-717. doi: 10.1002/psp4.12340.
  7. Sakhovskiy AS, Tutubalina EV. Mezh"yazykovoy perenos znaniy pri izvlechenii informatsii o lekarstvakh iz pol'zovatel'skikh tekstov. Cross-lingual knowledge transfer for drug information extraction from user texts. Trudy ISP RAN. 2021;33(6):217-228. (In Rus.) doi: 10.15514/ISPRAS-2021-33(6)-15.
  8. GOST R 52636-2006. Elektronnaya istoriya bolezni [Electronic health record]. Moscow: Standartinform; 2006. (In Rus.)
  9. O personal'nykh dannykh: Federal'nyy zakon ot 27 iyulya 2006 g. № 152-FZ .[Federal Law No. 152-FZ of July 27, 2006. Sobranie zakonodatel'stva RF. 2006;31(1):3451. (In Rus.)
  10. Federal'naya sluzhba po tekhnicheskomu i eksportnomu kontrolyu (FSTEK Rossii). Prikaz ot 18 fevralya 2013 g. № 21 «Ob utverzhdenii sostava i soderzhaniya organizatsionnykh i tekhnicheskikh mer po obespecheniyu bezopasnosti personal'nykh dannykh pri ikh obrabotke v informatsionnykh sistemakh personal'nykh dannykh» [Order of the Federal Service for Technical and Export Control (FSTEK of Russia) No. 21 dated February 18, 2013 «On Approval of the Composition and Content of Organizational and Technical Measures to Ensure the Security of Personal Data During Their Processing in Personal Data Information Systems»]. Available from: https://fstec.ru/dokumenty/vse-dokumenty/prikazy/prikaz-fstek-rossii-ot-18-fevralya-2013-g-n-21. (Accessed February 21, 2024). (In Rus.)
  11. Makarova EA, Andreychenko AE, Kazakova MA, et al. Obezlichivanie meditsinskikh tekstovykh dannykh s tsel'yu razrabotki i vnedreniya sistem iskusstvennogo intellekta. De-identification of medical text data for the development and implementation of artificial intelligence systems. Pravovaya informatika 2024;3:96-105. DOI: 10.24682/1994-1404-2024-3-96-105. (In Rus.)
  12. He H, Fu S, Wang L, et al. MedTator: a serverless annotation tool for corpus development. Bioinformatics 2022;38(6):1776-1778. DOI: 10.1093/bioinformatics/btab880.
  13. HL7 FHIR: standart [Electronic resource]. Health Level Seven International. Available from: https://fhir.ru/ (accessed: 01.02.2024). (In Rus.)
  14. Edinyy spravochnik-katalog lekarstvennykh preparatov. Unified directory-catalog of medicines. Available from: https://esklp.egisz.rosminzdrav.ru/documents. (Accessed February 22, 2024). (In Rus.)
  15. Armengol-Estapé J, Soares F, Marimon M, Krallinger M. PharmacoNER Tagger: a deep learning-based tool for automatically finding chemicals and drugs in Spanish medical texts. Genomics Inform. 2019;17(2):e15. doi: 10.5808/GI.2019.17.2.e15.
  16. Devlin J, Chang MW, Lee K, Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805. 2018. Available from: https://arxiv.org/abs/1810.04805.
  17. Kalyan KS, Rajasekharan A, Sangeetha S. AMMUS: A survey of transformer-based pretrained models in natural language processing. arXiv preprint arXiv:2108.05542. 2021. Available from: https://arxiv.org/abs/2108.05542.
  18. Dirkson A, Verberne S, Kraaij W. Breaking BERT: Understanding its Vulnerabilities for Named Entity Recognition through Adversarial Attack. arXiv preprint arXiv:2109.11308. 2021. Available from: https://arxiv.org/abs/2109.11308.

Дата поступления: 26.11.2024


Просмотров: 55

Ваш комментарий будет первым

Добавить комментарий
  • Пожалуйста оставляйте комментарии только по теме.
  • Вы можете оставить свой комментарий любым браузером кроме Internet Explorer старше 6.0
Имя:
E-mail
Комментарий:

Код:* Code

Последнее обновление ( 02.04.2025 г. )
« Пред.   След. »
home contact search contact search