О журнале Издательская этика Редколлегия Редакционный совет Редакция Для авторов Контакты
Russian

Экспорт новостей

Журнал в базах данных

eLIBRARY.RU - НАУЧНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА



crossref.org
vak.ed.gov.ru/vak

GoogleАкадемия

Google Scholar

Главная arrow Архив номеров arrow №3 2023 (69) arrow АВТОМАТИЗИРОВАННАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ КЛИНИЧЕСКИ РЕЛЕВАНТНЫХ ТЕРМИНОВ UMLS ИЗ ТЕКСТОВ АНГЛОЯЗЫЧНЫХ СТАТЕЙ НА ПРИМЕРЕ АКСИАЛЬНОГО СПОНДИЛОАРТРИТА
АВТОМАТИЗИРОВАННАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ КЛИНИЧЕСКИ РЕЛЕВАНТНЫХ ТЕРМИНОВ UMLS ИЗ ТЕКСТОВ АНГЛОЯЗЫЧНЫХ СТАТЕЙ НА ПРИМЕРЕ АКСИАЛЬНОГО СПОНДИЛОАРТРИТА Печать
27.07.2023 г.

DOI: 10.21045/2071-5021-2023-69-3-14

Астанин П.А., Раузина С.Е., Зарубина Т.В.
ФГАОУ ВО «Российский национальный исследовательский медицинский университет имени Н. И. Пирогова», Москва, Россия

Резюме

Актуальность. Выявление ранних признаков аксиального спондилоартрита (аксСпА) является сложной клинической задачей. Повышение качества диагностики данного заболевания на уровне первичного амбулаторного звена возможно при использовании систем информационной поддержки принятия решений, основанных на применении онтологического подхода. Ключевой этап разработки подобных инструментов заключается в формировании свода терминов, описывающих предметную область. Обязательным условием является соответствие используемых клинических формулировок существующим номенклатурам понятий. На сегодняшний день крупнейшим сводом биомедицинских справочников является Unified Medical Language System (UMLS), значительная часть терминов которого представлена только на английском языке. Создание инструментов извлечения клинически релевантных формулировок из текста научных статей позволит сформировать терминологический свод для аксСпА и выделить перечень справочников UMLS, нуждающихся в адаптации и экспертном переводе на русский язык.

Целью исследования является разработка автоматизированной системы извлечения клинически релевантных терминов метатезауруса UMLS из текста аннотаций к англоязычным статьям.

Материал и методы. В качестве материала исследования выступают англоязычные термины (11,2 млн) из 76 справочников актуальной версии UMLS (2022AB) и тексты аннотаций к англоязычным статьям из поисковой системы PubMed. Для работы применялись запросы к графовой информационной модели UMLS, алгоритмы семантического анализа неструктурированного текста и методы машинного обучения.

Результаты. В ходе исследования создан набор регулярных выражений для очистки корпуса текстов от метаданных (F1-score=98%) и выделены паттерны поиска клинически релевантных терминов UMLS в извлеченном своде формулировок. С использованием алгоритма логистической регрессии обучен бинарный классификатор, принимающий на вход информацию о термине UMLS и возвращающий метку наличия или отсутствия признака клинической релевантности.

Заключение. Разработанная модель классификации терминов подвергнута однократной валидации и двукратному тестированию на различных сводах терминов. Значения метрик точности, чувствительности и специфичности модели составили 91%, 90% и 91%, соответственно, для валидационной выборки (части терминов, полученных для аксСпА). При тестировании на сводах терминов, полученных для двух других заболеваний, значения точности составили 91% и 90%, соответственно. С использованием созданной модели машинного обучения было установлено, что UMLS содержит около 1,5 млн уникальных терминов, применимых для описания клинической картины заболеваний. Созданы перечни приоритетных справочников и групп клинически релевантных терминов UMLS, требующих экспертного перевода и адаптации на русский язык.

Ключевые слова: UMLS; NLP; извлечение именованных сущностей; регулярные выражения; машинное обучение; аксиальный спондилоартрит.

Контактная информация: Астанин Павел Андреевич, email: Этот e-mail защищен от спам-ботов. Для его просмотра в вашем браузере должна быть включена поддержка Java-script
Финансирование. Исследование выполнено в рамках федеральной программы «Приоритет 2030».
Конфликт интересов. Авторы декларируют отсутствие явных и потенциальных конфликтов интересов в связи с публикацией данной статьи.
Соблюдение этических стандартов. Данный вид исследования не требует прохождения экспертизы локальным этическим комитетом.
Для цитирования: Астанин П.А., Раузина С.Е., Зарубина Т.В. Автоматизированная система извлечения клинически релевантных терминов UMLS из текстов англоязычных статей на примере аксиального спондилоартрита. Социальные аспекты здоровья населения [сетевое издание] 2023; 69(3):14. Режим доступа: http://vestnik.mednet.ru/content/view/1491/30/lang,ru/. DOI: 10.21045/2071-5021-2023-69-3-14.

AUTOMATED SYSTEM FOR RECOGNIZING CLINICALLY RELEVANT UMLS TERMS IN TEXTS OF THE ENGLISH-LANGUAGE ARTICLES EXEMPLIFIED BY AXIAL SPONDYLOARTHRITIS
Astanin PA, Rauzina SE, Zarubina TV
Pirogov Russian National Research Medical University, Moscow, Russia

Abstract

Significance. Early detection of axial spondyloarthritis (axSpA) is a complex clinical task. Quality improvement of axSpA diagnostics in primary care settings is possible with the help of decision-making information systems based on the ontological approach application. The key stage of the decision-making system development consists of the elaboration of a set of clinical terms. This set should fully describe clinical area or sub-area under study. One of the essential requirements is compliance of the clinical terms used with the existing clinical nomenclatures. Currently, the largest set of clinical terms is the Unified Medical Language System (UMLS) metathesaurus. The majority of UMLS terms is presented in English only. The development of tools for the analysis of unstructured texts and recognition of clinically relevant UMLS entities make it possible to elaborate a set of terms describing axSpA diagnostic aspects. This will also help to compile a list of UMLS terminology nomenclatures for their priority adaptation and expert translation into Russian.

The purpose of this study is to develop an automated system for recognizing clinically relevant UMLS terms in texts of the English-language articles.

Material and methods. The research material has included English terms (11.2 million) aggregated from 76 nome6nclatures of the current UMLS (2022AB) version. In addition, the study has used texts of PubMed clinical abstracts in English. Queries to the UMLS graph model, semantic algorithms for unstructured texts and machine-learning methods have been applied for data collection and analysis.

Results. The study has elaborated a set of high-accuracy regular expressions (F1-score=98%) for metadata elimination from the text corpus. Then the authors have identified patterns for searching clinically relevant terms in the aggregated set of UMLS concepts. Using a logistic regression algorithm, the authors have trained a binary classification model. Input data for the created classificatory are information about an UMLS term. Output data are a label indicating the presence or absence of clinical relevance.

Conclusion. The binary classification model has been validated individually and double-tested on different data samples. Values of the accuracy, sensitivity and specificity of metrics equal to 91%, 90% and 91%, respectively, for the validation sample (a number of axSpA terms). In addition, this model has been tested on the sets of terms aggregated for any two diseases. Values of the accuracy metric equal to 91% and 90%, respectively. With the help of the developed machine-learning model, the study has estimated that UMLS contains 1.5 million unique terms applicable to describing a clinical picture. In addition, lists of priority UMLS data sources and thematic groups have been compiled. These clinically relevant UMLS terms should be adapted and translated into Russian as soon as possible.

Keywords: UMLS; NLP; named-entity recognition; regular expressions; machine learning; axial spondyloarthritis

Corresponding author: Pavel A. Astanin, email: Этот e-mail защищен от спам-ботов. Для его просмотра в вашем браузере должна быть включена поддержка Java-script
Information about authors:
Astanin P.A.,
https://orcid.org/0000-0002-1854-8686
Rauzina S.E., https://orcid.org/0000-0002-9535-2847
Zarubina T.V., https://orcid.org/0000-0002-4403-8049
Acknowledgments. The study was carried out within the framework of the Federal program «Priority 2030».
Competing interests. The authors declare the absence of any conflicts of interest regarding the publication of this paper.
For citation: Astanin P.A., Rauzina S.E., Zarubina T.V. Automated system for recognizing clinically relevant UMLS terms in texts of the English-language articles exemplified by axial spondyloarthritis. Social'nye aspekty zdorov'a naselenia [serial online] 2023; 69(3):14. Available from: http://vestnik.mednet.ru/content/view/1491/30/lang,ru/. DOI: 10.21045/2071-5021-2023-69-3-14 (In Rus).

Введение

Согласно определению экспертной группы по изучению спондилоартритов при Ассоциации ревматологов России, аксиальный спондилоартрит (аксСпА) – это спондилоартрит с преимущественным поражением позвоночника и крестцово-подвздошных суставов [1]. В настоящее время принято выделять две основные формы аксСпА: нерентгенологический аксСпА без радиографических признаков воспаления в крестцово-подвздошных сочленениях и анкилозирующий спондилит (АС), характеризующийся наличием радиографических признаков сакроилиита [2].

Частыми и наиболее выраженными клиническими проявлениями аксСпА являются утренняя скованность и боль в поясничной области, ослабевающая или исчезающая при физической нагрузке. Поскольку данные симптомы характерны для широкого спектра заболеваний нервной и костно-мышечной систем, наиболее распространенной ошибкой при ведении пациентов с неуточненным диагнозом является многолетнее безрезультатное наблюдение у специалистов неревматологического профиля: ортопедов, неврологов, амбулаторных хирургов [3–4].

АксСпА характеризуется поздней диагностикой: медиана длительности от возникновения первых клинических проявлений до постановки диагноза составляет 5–10 лет [5]. Многочисленные васкулиты, развивающиеся в ходе длительных аутоиммунных процессов, могут приводить к нарушению функции любых других органов и систем [6]. В связи с этим аксСпА нередко сопровождается возникновением внескелетных проявлений, среди которых принято выделять увеиты, воспалительные заболевания кишечника и поражения кожи [7]. В ряде случаев клиническая картина течения аксСпА может значительно отличаться от классической.

Раннему выявлению аксСпА препятствует системный характер заболевания, приводящий к широкой вариабельности клинических и лабораторно-инструментальных находок [8–10]. Увеличение числа случаев ранней диагностики аксСпА возможно при обеспечении информационной поддержки принятия решений на уровне первичного звена с применением систем, основанных на использовании онтологического подхода. Первым шагом в разработке подобных систем является создание свода клинических терминов, покрывающих исследуемую область.

Крупнейшим источником биомедицинских терминов является Unified medical language system (UMLS) – метатезаурус, включающий 76 актуальных справочников и словарей [11–12]. Актуальная версия UMLS (2022AB) содержит три справочника терминов (304 тыс.), экспертно адаптированных и переведенных на русский язык. Их доля составляет менее 3% от суммарного числа русскоязычных и англоязычных терминов (11,5 млн), представленных в UMLS. По этой причине наиболее целесообразным способом построения свода клинических формулировок является извлечение именованных сущностей из англоязычных текстов с использованием оригинальных версий справочников UMLS и последующий экспертный перевод выделенных терминов на русский язык.

На сегодняшний день большинство актуальных англоязычных статей по различным клиническим направлениям представлено в поисковой системе PubMed [13]. Возможность извлечения текстов аннотаций к статьям, находящимся в открытом доступе, предоставляется любому пользователю [14]. При правильном формировании поискового запроса может быть выгружен массивный корпус текстов, широко покрывающий соответствующую клиническую область. Оценка смысловой значимости терминов, извлекаемых из текстов аннотаций к научным статьям, позволит определить паттерны автоматического поиска клинически релевантных концептов – терминов, содержащих информацию о клинических проявлениях и симптомах, лабораторно-инструментальных находках, сопутствующих и коморбидных заболеваниях. Подобные паттерны могут быть использованы для определения приоритетных справочников и групп терминов UMLS, нуждающихся в экспертном переводе и адаптации на русский язык.

Целью исследования является разработка автоматизированной системы извлечения клинически релевантных терминов метатезауруса UMLS из текста аннотаций к англоязычным статьям.

Материалы и методы

Исследование проведено в рамках стратегического проекта «Приоритет – 2030» на базе Института цифровой трансформации медицины (ИЦТМ) ФГАОУ ВО «Российский национальный исследовательский медицинский университет имени Н. И. Пирогова» Минздрава России. В работе задействованы англоязычные термины (11,2 млн) из 76 справочников актуальной версии UMLS (2022AB).

Процесс подготовки корпуса текстов аннотаций к англоязычным статьям включал несколько этапов. На первом этапе с использованием системы управления базами данных Neo4j была создана графовая модель UMLS [15]. С применением декларативного языка запросов Cypher в реализованной модели определялся корневой концепт, соотнесенный с кодом заболевания из справочника международной классификации болезней 10 пересмотра (МКБ-10) [16]. В данной работе корневой нозологии соответствовал код «M45» – «Анкилозирующий спондилит» (поскольку самостоятельный код для аксСпА в справочнике МКБ-10 отсутствует).

Затем с использованием графовой информационной модели UMLS для данного концепта извлекались узлы, соединенные с корневым термином одним или несколькими из следующих типов связей: SY – synonymous relationships (строго синонимичные связи), RN – narrower relationships и CHD – child relationships (вертикальные связи родительских терминов с дочерними). Данные типы связей обеспечивают поиск синонимичных и дочерних терминов (пример графового поиска терминов представлен на рисунке 1).

Рис.1
Рис. 1. Пример поиска синонимичных и дочерних терминов в графовой модели UMLS

На втором этапе для корневого концепта, а также его синонимичных и дочерних терминов извлекались все варианты написания, представленные в справочниках и словарях UMLS. Полученные формулировки корневого заболевания использовались для составления запроса на выгрузку аннотаций к статьям из системы PubMed. Аннотация включалась в корпус, если хотя бы одна из формулировок корневого заболевания дословно встречалась в ее наименовании или основном тексте. Корпус аннотаций сохранялся на жесткий диск.

На третьем этапе осуществлялась подготовка текста к извлечению именованных сущностей с использованием средств языка программирования Python. Корпус текстов разбивался на абзацы, каждый из которых отделялся в исходном файле двумя знаками табуляции. При первичном изучении корпуса было выявлено ключевое преимущество использования системы PubMed, которое заключается в четком обособлении абзацев с метаданными от абзацев с полезной клинической информацией (текстом аннотаций). Экспертным способом сформулированы правила для проверки абзацев на предмет наличия в них метаданных. Если хотя бы одно из них выполнялось, соответствующий абзац исключался из корпуса текстов. Каждое правило было реализовано с использованием регулярных выражений и проверено на 542 извлеченных из корпуса случайным способом абзацах текста (таблица 1) [17–18].

Таблица 1

Критерии исключения абзацев с метаданными из корпуса текстов аннотаций к англоязычным статьям поисковой системы PubMed

Синтаксис регулярного выражения Смысловое описание F1-Score
1 search('doi: ', i, regex.IGNORECASE) Наличие хотя бы одной подстроки «doi: » в тексте абзаца i (независимо от регистра). 53%
2 search('PMID: ', i) Наличие хотя бы одной подстроки «'PMID: » в тексте абзаца i. 48%
3 search('PMCID: ', i) Наличие хотя бы одной подстроки «'PMCID: » в тексте абзаца i. 47%
4 search('Author information: ', i) Наличие хотя бы одной подстроки «Author information: » в тексте абзаца i. 48%
5 search('©', i) Наличие хотя бы одного символа «©» в тексте абзаца i. 46%
6 search(r'\d{4}.{1,15}:\d{1,8}-\d{1,8}', i) Наличие хотя бы одной подстроки «Author information: » в тексте абзаца i. 45%
7 search(r'[A-Z]{1,4}\(\d{1,3}\)', i) Наличие хотя бы одной подстроки, состоящей из 1–4 букв и 1–3 цифр, заключенных в круглые скобки, и и, в тексте абзаца i. 48%
8 search(r'Conflict of interest statement: ', i) Наличие хотя бы одной подстроки «Conflict of interest statement:» в тексте абзаца i. 46%
9 search(r'Collaborators: ', i) Наличие хотя бы одной подстроки «Collaborators: » в тексте абзаца i. 43%
10 search(r'\[Internet\]', i) Наличие хотя бы одной подстроки «[Internet]» в тексте абзаца i. 43%
11 match(r'\s*\d{1,4}\.', i) Наличие не менее одного пробельного символа и следующей за ними подстроки из 1–4 цифр в начале абзаца i. 48%
12 match(r'\[.*\]', i) Наличие любой информации, заключенной в квадратные скобки, в начале абзаца i. 43%
13 match(r'Comment in', i) Наличие подстроки «Comment in» в начале абзаца i. 43%
14 Совокупность всех правил 98%

Из данных таблицы 1 следует, что комбинированное применение всех 13 семантических правил обеспечивает высокое качество оценки наличия метаданных в тексте. Итоговый F1-score суммарного свода правил составил 98%.

На четвертом шаге из оставшихся абзацев удалялись все данные, заключенные в квадратные скобки. Двойные пробелы заменялись на одинарные. Затем осуществлялся поиск точных совпадений терминов в тексте с англоязычными терминами из UMLS. Каждый уникальный термин вносился в таблицу с указанием абсолютной частоты встречаемости в корпусе.

После обработки корпуса текстов каждому извлеченному термину, в зависимости от его клинической релевантности, экспертным способом была присвоена бинарная метка принадлежности к соответствующему классу. Не считались клинически релевантными термины, относящиеся к высокоспецифичным лабораторно-инструментальным методам диагностики и специализированным терапевтическим процедурам. Экспертная работа с указанными терминами не входила в задачи настоящего исследования, однако должна быть проведена в дальнейшем с целью выявления соответствующих паттернов поиска.

В настоящей работе паттерны поиска выделялись только для клинически релевантных терминов UMLS. Для извлечения паттернов проведена статистическая обработка полученных данных. Для количественного описания групп терминов (в зависимости от их клинической релевантности) рассчитывались их абсолютные и относительные частоты. Оценка различий производилась с использованием непараметрического критерия Х2 или точного критерия Фишера (при наличии в ячейках таблиц сопряженности значений менее 5). Статистически значимыми считались результаты проверки гипотез при p<0,050.

Интегральная оценка выявленных паттернов поиска осуществлялась с использованием логистической регрессионной модели. Весь набор извлеченных терминов был разбит на обучающую и валидационную подвыборки в соотношении 80/20. Оценка качества определения клинической релевантности терминов производилась на валидационной подвыборке и двух тестовых выборках. Первая тестовая выборка включала термины, извлеченные из корпуса текстов аннотаций к статьям об остеопорозе позвоночника (M80.5, M81.5) – одном из заболеваний дифференциально-диагностического ряда для аксСпА. Вторая тестовая выборка включала термины, извлеченные из аннотаций к статьям по язве желудка и двенадцатиперстной кишки (K25, K26) – заболевании, не входящем в дифференциально-диагностический ряд для аксСпА. При сбалансированном соотношении классов определялись метрики точности, чувствительности и специфичности. При выраженном дисбалансе классов рассчитывался F1-score [19]. Интегральная оценка качества классификации производилась с использованием ROC-анализа и последующего определения площади под характеристической кривой (AUC) [20].

Результаты

При обработке корпуса аннотаций к англоязычным статьям по аксСпА извлечено 7818 уникальных терминов, каждый из которых принадлежал к одному или нескольким справочникам. При сопоставлении данных терминов со справочниками UMLS получено 43476 уникальных атомарных формулировок. Доля клинически релевантных терминов в извлеченном своде составила ~42%. После экспертной разметки были проанализированы частоты принадлежности релевантных и нерелевантных терминов к различным справочникам UMLS. Анализировались справочники, для которых доля релевантных атомарных формулировок UMLS оказалась не ниже 42%, а общее число терминов – не ниже 50. (результаты представлены в таблице 2).

Таблица 2

Структура распределения терминов, извлеченных из корпуса аннотаций к англоязычным статьям, по справочникам UMLS

Код справочника в UMLS Доля клинических терминов (n, %) P
Всего (n=43476 – 100%), из них: нерелевантных (n=25185 – 58%) релевантных (n=18291 – 42%)
CCS 96 (<1%) 22 (~23%) 74 (~77%) <0,001
HPO 750 (~2%) 58 (~8%) 692 (~92%) <0,001
ICD9CM 399 (~1%) 104 (~26%) 295 (~74%) <0,001
ICD10 225 (~1%) 43 (~19%) 182 (~81%) <0,001
ICD10AM 279 (~1%) 88 (~32%) 191 (~68%) <0,001
ICD10CM 616 (~1%) 53 (~9%) 563 (~91%) <0,001
ICPC2P 801 (~2%) 183 (~23%) 618 (~77%) <0,001
ICPC2EENG 65 (<1%) 18 (~28%) 47 (~72%) <0,001
ICPC2ICD10ENG 301 (~1%) 62 (~21%) 239 (~79%) <0,001
MDR 2788 (~6%) 818 (~29%) 1970 (~71%) <0,001
MEDCIN 1803 (~4%) 763 (~42%) 1040 (~58%) <0,001
MEDLINEPLUS 460 (~1%) 142 (~31%) 318 (~69%) <0,001
MTHICD9 144 (<1%) 29 (~20%) 115 (~80%) <0,001
NANDA-I 162 (<1%) 51 (~31%) 111 (~69%) <0,001
NOC 507 (~1%) 245 (~48%) 262 (~52%) <0,001
OMIM 1177 (~3%) 381 (~32%) 796 (~68%) <0,001
ORPHANET 185 (<1%) 37 (~20%) 148 (~80%) <0,001
SNOMEDCT_US 6270 (~14%) 3121 (~50%) 3149 (~50%) <0,001
SNOMEDCT_VET 114 (<1%) 28 (~25%) 86 (~75%) <0,001
Другие справочники 26334 (~61%) 18939 (~72%) 7395 (~28%) <0,001
Примечание: CCS – Clinical Classifications Software (Клиническая терминология для информационных систем); HPO – Human Phenotype Ontology (Свод терминов о фенотипе человека); ICD9CM – International Classification of Diseases, Ninth Revision, Clinical Modification (Клиническая модификация международной классификации болезней 9 пересмотра); ICD10 – International Classification of Diseases and Related Health Problems, Tenth Revision (Международная классификация болезней и проблем, связанных со здоровьем 10 пересмотра); ICD10AM – ICD-10, Australian Modification (Австралийская модификация международной классификации болезней 10 пересмотра); ICD10CM – International Classification of Diseases, Tenth Revision, Clinical Modification (Клиническая модификация международной классификации болезней и проблем, связанных со здоровьем, 10 пересмотра); ICPC2P – International Classification of Primary Care, Extended version 2 (Терминология в области оказания первичной медицинской помощи), ICPC2EENG – International Classification of Primary Care, 2nd Edition, Electronic (Терминология в области оказания первичной медицинской помощи, повторный пересмотр); ICPC2ICD10ENG – ICPC2-ICD10 Thesaurus (Унифицированный свод терминов из международной классификации болезней и терминологии в области оказания первичной медицинской помощи); MDR – Medical Dictionary for Regulatory Activities (Нормативная клиническая терминология); MEDCIN (Иерархический словарь общеклинических терминов), MEDLINEPLUS – MedlinePlus Health Topics (Иерархия клинических заголовков), MTHICD9 – ICD-9-CM Entry Terms (Техническая и дополнительная терминология для клинической модификации международной классификации болезней 9 пересмотра), NANDA-I – International Nursing Diagnoses: Definitions and Classification (Международная терминология в области сестринского дела); NOC – Nursing Outcomes Classification (Классификация клинических исходов, связанных с сестринской деятельностью); OMIM – Online Mendelian Inheritance in Man (Справочник генных, хромосомных и геномных нарушений); ORPHANET – (Номенклатура редких заболеваний); SNOMEDCT_US – Systematized Nomenclature of Medicine-Clinical Terms, US Edition (Американская версия систематизированной терминологического свода в области клинической медицины); SNOMEDCT_VET – SNOMED CT, Veterinary Extension (Систематизированный терминологический свод в области клинической медицины, расширенная версия для ветеринаров)

Из данных таблицы 2 следует, что 10896 (~72%) клинически релевантных атомарных формулировок агрегировано из 19 справочников UMLS. В общей сложности в указанных справочниках содержится около 3,5 млн терминов, что составляет 30% от общего числа терминов из всех 76 справочников метатезауруса. Наибольшее число терминов извлечено из крупнейших международных справочников со следующими кодовыми названиями: SNOMEDCT_US (~14%), MDR (~6%), MEDCIN (~4%), OMIM (~3%), ICPC2P (~2%). Доля релевантных терминов оказалась наиболее высокой в справочниках со следующими кодовыми названиями: HPO (~92%), ICD10 (~81%), ICD10CM (~91%), MTHICD9 (~80%), ORPHANET (~80%).

Каждый термин из полученного свода соотносился с тематической группой соответствующего концепта UMLS. Выделены наиболее значимые группы клинически релевантных терминов. Результаты количественной оценки частоты встречаемости формулировок в различных тематических группах UMLS представлены в таблице 3. Отражены результаты только по тем группам, в которых доля релевантных терминов была не ниже 42%, а общее число терминов – не ниже 50.

Таблица 3

Структура распределения терминов, извлеченных из корпуса аннотаций к англоязычным статьям, по тематическим группам UMLS

Код группы терминов в UMLS Количество клинических терминов (n, %) P
Всего (n=43476 – 100%), из них: нерелевантных (n=25185 – 58%) релевантных (n=18291 – 42%)
T019 196 (<1%) 21 (~11%) 175 (~89%) <0,001
T020 90 (<1%) 10 (~11%) 80 (~89%) <0,001
T033 3458 (~8%) 1974 (~57%) 1484 (~43%) 0,295
T037 805 (~2%) 215 (~27%) 590 (~73%) <0,001
T046 1632 (~4%) 272 (~17%) 1360 (~83%) <0,001
T047 10082 (~23%) 505 (~5%) 9577 (~95%) <0,001
T048 889 (~2%) 172 (~19%) 717 (~81%) <0,001
T049 63 (<1%) 28 (~44%) 35 (~56%) 0,030
T184 1890 (~4%) 193 (~10%) 1697 (~90%) <0,001
T190 251 (~1%) 36 (~14%) 215 (~86%) <0,001
T191 1147 (~3%) 144 (~13%) 1003 (~87%) <0,001
Другие группы 22973 (~53%) 21615 (~94%) 1358 (~6%) <0,001
Примечание: T019 – Congenital abnormality (Врожденная аномалия развития), T020 – Acquired abnormality (Приобретенный порок), T033 – Findings (Клиническая и/или лабораторно-инструментальная находка), T037 – Injury or poisoning (Травма или отравление), T046 – Pathologic function (Патологический процесс), T047 – Disease or syndrome (Заболевание или синдром), T048 – Mental or behavioral dysfunction (Расстройство мышления и/или поведения), T049 – Cell or molecular dysfunction (Клеточная или молекулярная дисфункция), T184 – Sign or symptom (Признак и/или симптом), T190 – Anatomical abnormality (Анатомическое нарушение), T191 – Neoplastic process (Неопластический процесс)

Из данных таблицы 3 следует, что большинство (~86%) релевантных терминов принадлежит к следующим тематическим группам: T019, T020, T033, T037, T046, T047, T048, T049, T184, T190 и T191. Все указанные группы входят в класс Disorders (Расстройства) семантической сети UMLS. Не выявлено статистически значимых различий по соотношению релевантных и нерелевантных терминов в тематической группе T033. По всем остальным группам установлены статистически значимые различия, позволяющие сделать вывод об общей степени предпочтительности соответствующих терминов при описании клинической картины заболевания.

Наконец, дополнительно были проанализированы параметры, присвоенные экспертным способом каждой формулировке разработчиками справочников UMLS. К числу данных параметров отнесены текущий статус термина, приоритет термина в справочнике и способ записи термина.

Таблица 4

Структура распределения терминов, извлеченных из корпуса аннотаций к англоязычным статьям, по семантическим атрибутам

Значение параметра термина в UMLS Количество клинических терминов (n, %) P
Всего (n=43476 – 100%), из них: нерелевантных (n=25185 – 58%) релевантных (n=18291 – 42%)
TS – Term status (Текущий статус термина)
S 15507 (~36%) 9771 (~63%) 5736 (~37%) <0,001
P 27969 (~64%) 15414 (~55%) 12555 (~45%)
ISPREF – Is preferred (Метка приоритета для термина)
Y 19257 (~44%) 12581 (~65%) 6676 (~35%) <0,001
N 24219 (~56%) 12604 (~52%) 11615 (~48%)
STT – String type (Тип строки)
PF 21383 (~49%) 13006 (~61%) 8377 (~39%) <0,001
VC 15023 (~35%) 8917 (~59%) 6106 (~41%) <0,001
VCW 1603 (~4%) 432 (~27%) 1171 (~73%) <0,001
VO 5017 (~12%) 2648 (~53%) 2369 (~47%) <0,001
VW 450 (~1%) 182 (~40%) 268 (~60%) <0,001
Примечание: S – Suppressed (Неиспользуемый), P – Preferred (Используемый), Y – Yes (Да), N – No (Нет), PF – Preferred form of term (Предпочтительная форма термина), VC – Case variant of the preferred form (Вариант предпочтительной формы с измененным подчинением слов), VCW – Case and word-order variant of the preffered form (Вариант предпочтительной формы с измененным подчинением слов и их перестановкой), VO – Variant of the preferred form (Вариант предпочтительной формы), VW – Word-order variant of the preferred form (Вариант предпочтительной формы с перестановкой слов)

Из данных таблицы 4 следует, что доля клинически релевантных терминов с актуальным статусом оказалась значимо выше. Наиболее предпочтительными при описании клинической картины аксСпА были варианты терминов с измененным подчинением слов и их перестановками. Однако установлено, что термины с меткой пониженного приоритета значимо чаще могут применяться для описания клинической картины.

Большое количество выявленных статистически значимых различий указывает на наличие закономерностей, которые могут применяться для определения релевантных терминов с целью их последующего включения в свод для описания отдельных биомедицинских областей. С использованием данных о тематической принадлежности, источнике происхождения и семантических атрибутах извлеченных формулировок был построен бинарный классификатор, определяющий факт наличия или отсутствия клинической релевантности терминов UMLS. Значения метрик точности, чувствительности и специфичности классификатора для валидационной выборки (n=8696) составили 91 [91; 92]%, 90 [90; 91]% и 91 [90; 92]%, соответственно (при пороговом значении логистической функции, равном 0,500). Значение AUC при ROC-анализе оказалось равным 0,949, что дополнительно подтверждает высокое качество автоматического определения клинической релевантности терминов (рисунок 2).

Рис.2
Рис. 2. Результаты ROC-анализа для модели бинарной классификации терминов UMLS по признаку их клинической релевантности

Необходимо отметить, что экстраполяция паттернов поиска клинически релевантных терминов метатезауруса UMLS в неструктурированном тексте требует предварительного тестирования созданной модели на сводах формулировок, полученных не только для аксСпА, но и для других заболеваний. Ранее упоминалось, что для проверки качества работы модели использованы своды терминов для двух заболеваний: остеопороза позвоночника, принадлежащего к дифференциально-диагностическому ряду по аксСпА, и язвы желудка и двенадцатиперстной кишки – заболевания, не входящего в этот ряд [21]. Разметка формулировок, извлеченных из аннотаций к статьям по остеопорозу позвоночника, выполнялась экспертом, определявшим метки для основного свода терминов (по аксСпА). Термины, извлеченные из аннотаций к статьям по язве желудка и двенадцатиперстной кишки, размечались независимо другим экспертом.

При тестировании классификатора получены значения точности в 91% для терминов, извлеченных из текстов по остеопорозу позвоночника, и 90% для терминов по язве желудка и двенадцатиперстной кишки (таблица 5).

Таблица 5

Результаты тестирования модели оценки клинической релевантности терминов UMLS

Заболевание Число терминов (n) Точность (%)
1 Остеопороз позвоночника 5977 91 [89; 92]
2 Язва желудка и двенадцатиперстной кишки 1633 90 [86; 93]

Обсуждение

Результаты оценки качества работы модели позволяют сделать заключение о ее применимости при нахождении клинически релевантных терминов в тексте аннотаций к англоязычным статьям. С высокой долей вероятности можно сделать предположение, что выявленные паттерны поиска терминов, и созданная модель классификации применимы при работе со сводами формулировок, описывающих клиническую картину ревматических заболеваний. С меньшей степенью уверенности можно говорить о возможности применения результатов настоящего исследования при выделении терминов для других нозологических групп.

В настоящее время система извлечения клинически релевантных терминов UMLS из текста англоязычных статей реализована в виде двух самостоятельных программных модулей и внедрена в работу Института цифровой трансформации медицины РНИМУ им. Н. И. Пирогова. В ходе работы первого модуля производится извлечение синонимичных терминов и дочерних формулировок для перечня кодов МКБ-10, заданных пользователем. Выходными данными является формализованный текст запроса к поисковой системе PubMed. После отправки запроса пользователь должен указать глубину поиска клинических материалов, установить фильтр на типы используемых научных изданий и сохранить сформированный корпус аннотаций на жесткий диск. Второй модуль принимает на вход указанный корпус текстов, производит очистку от метаданных, а также осуществляет извлечение и сохранение перечня именованных сущностей UMLS. Предусмотрена возможность сохранения только тех терминов, которые были размечены как клинически релевантные с использованием весовых коэффициентов, полученных при обучении логистической регрессионной модели.

Заключение

По предварительным оценкам, полученным с использованием разработанного классификатора, UMLS содержит около 1,5 млн уникальных англоязычных терминов, которые могут быть использованы для описания клинической картины заболеваний. Большинство терминов принадлежит к международным медицинским справочникам (SNOMED CT, MedDRA, ICD10) и тематическим группам UMLS, относящимся к классу Disorders (Расстройства) семантической сети и имеющим следующие коды: T019, T020, T033, T037, T046, T047, T048, T049, T184, T190 и T191. В настоящее время создан ранжированный перечень терминов UMLS, нуждающихся в экспертном переводе и адаптации на русский язык. Использование системы приоритетов обеспечит скорейшее создание полноценного свода терминов, описывающих клинические признаки и симптомы заболеваний. Предполагается, что данный свод сможет применяться в работе информационно-поисковых алгоритмов и систем интеллектуальной поддержки принятия клинических решений, основанных на анализе неструктурированного русскоязычного текста. В свою очередь выделенные клинически релевантные термины для аксСпА будут использованы при проектировании структуры модели знаний и создании системы поддержки принятия решений для дифференциальной диагностики данного заболевания.

К перспективам дальнейших исследований необходимо отнести формирование паттернов поиска диагностически и терапевтически релевантных концептов UMLS, а также создание алгоритма извлечения клинических аббревиатур и семантических связей, основанных на синтаксическом разборе предложений из текста на русском языке.

Библиография

  1. Эрдес Ш. Ф., Ребров А. П., Дубинина Т. В., Бадокин В. В., Бочкова А. Г., Бугрова О. В. Спондилоартриты: современная терминология и определения. Терапевтический архив 2019; 91 (5): 84–88. Режим доступа: https://journals.eco-vector.com/files/journals/80/articles/33624/public/33624-58517-1-PB.pdf. DOI: 10.26442/00403660.2019.05.000208. (Дата обращения: 10.05.2023).
  2. Дубинина Т. В., Демина А. Б. Методы лучевой диагностики как инструмент мониторинга аксиального спондилоартрита в реальной клинической практике. Современная ревматология 2022; 16 (1): 91–96. Режим доступа: https://elibrary.ru/download/elibrary_47989650_27110879.pdf. DOI: 10.14412/1996-7012-2022-1-91-96. (Дата обращения: 10.05.2023).
  3. Шостак Н. А., Правдюк Н. Г., Новикова А. В. Поражение осевого скелета в практике ревматолога. Нервные болезни 2021; 3: 38–43. Режим доступа: https://elibrary.ru/download/elibrary_47184063_10820901.pdf. DOI: 10.24412/2226-0757-2021-12353. (Дата обращения: 10.05.2023).
  4. Чичасова Н. В. Дифференциальная диагностика при поражении суставов и позвоночника. Современная ревматология 2020; 14 (2): 14–19. Режим доступа: https://elibrary.ru/download/elibrary_43934398_24843575.pdf. DOI: 10.14412/1996-7012-2020-2-14-19. (Дата обращения: 10.05.2023).
  5. Головач И. Ю., Егудина Е. Д., Тер-Вартаньян С. Х. Роль визуализационных методов исследования в диагностике и менеджменте аксиального спондилоартрита. Травма 2020; 21 (1): 102–115. Режим доступа: https://elibrary.ru/download/elibrary_42595996_76759469.pdf. DOI: 10.22141/1608-1706.1.21.2020.197805. (Дата обращения: 10.05.2023).
  6. Сафарова К. Н., Махина В. И., Ребров А. П. Анемия и ремоделирование миокарда левого желудочка у пациентов с аксиальными спондилоартритами - существует ли взаимосвязь? Русский медицинский журнал 2021; 29 (7): 18–23. Режим доступа: https://www.rmj.ru/articles/kardiologiya/Anemiya_iremodelirovanie_miokarda_levogo_gheludochka_upacientov_saksialynymi_spondiloartritami__suschestvuet_livzaimosvyazy/. (Дата обращения: 10.05.2023).
  7. Дибров Д. А., Коротаева Т. В., Красненко С. О., Урумова М. М., Круглова Л. С., Лила А. М. Анкилозирующий спондилит в сочетании с комбинированным аутовоспалительным поражением кожи (клиническое наблюдение и обзор литературы). Современная ревматология 2021; 15 (4): 81–86. Режим доступа: https://elibrary.ru/download/elibrary_46424028_30722634.pdf. DOI: 10.14412/1996-7012-2021-4-81-86. (Дата обращения: 10.05.2023).
  8. Эрдес Ш. Ф., Коротаева Т. В. Прогрессирование аксиального спондилоартрита. Современная ревматология 2021; 15 (3): 7–14. Режим доступа: https://elibrary.ru/download/elibrary_46180513_16476113.pdf. DOI: 10.14412/1996-7012-2021-3-7-14. (Дата обращения: 10.05.2023).
  9. Гайдук А. С., Железняк И. С., Тыренко В. В., Анохин Д. Ю., Малаховский В. Н., Емельянцев А. А. и др. Цифровой томосинтез и другие методы визуализации в ранней диагностике аксиальных спондилоартритов: обзор литературы. Лучевая диагностика и терапия 2022; 13 (2): 25–35. Режим доступа: https://elibrary.ru/download/elibrary_49339944_38220803.pdf. DOI 10.22328/2079-5343-2022-13-2-25-35. (Дата обращения: 10.05.2023).
  10. Моисеев С. В., Новиков П. И., Гуляев С. В., Кузнецова Е. И., Шевцова Т. П., Шафиева И. А. и др. Анкилозирующий спондилит: подходы к диагностике и клиническая эффективность упадацитиниба. Клиническая фармакология и терапия 2021; 30 (4): 62–70. Режим доступа: https://elibrary.ru/download/elibrary_47966615_73628365.pdf. DOI: 10.32756/0869-5490-2021-4-62-70. (Дата обращения: 10.05.2023).
  11. Bobojonova ShYQ, Akhmedov OS. Semantic analysis of medical lexicon in United medical Language system. Herald of Science and Education 2020; 15-2 (93): p. 39–41. Available from: https://elibrary.ru/download/elibrary_43771264_23900124.pdf. (Дата обращения: 10.05.2023).
  12. Bodenreider O. The Unified Medical Language System (UMLS): integrating biomedical terminology. Nucleic Acids Res 2004; 32: p. 267–270. Available from: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC308795/. DOI: 10.1093/nar/gkh061. (Дата обращения: 10.05.2023).
  13. Торшин И.Ю., Громова О.А., Стаховская Л.В., Ванчакова Н.П., Галустян А.Н., Кобалава Ж.Д. и др. Анализ 19,9 млн публикаций базы данных PubMed/MEDLINE методами искусственного интеллекта: подходы к обобщению накопленных данных и феномен «fake news». Фармакоэкономика. Современная фармакоэкономика и фармакоэпидемиология 2020; 13 (2): 146–163. Режим доступа: https://elibrary.ru/download/elibrary_43776170_84342782.pdf. DOI: 10.17749/2070-4909/farmakoekonomika.2020.021. (Дата обращения: 10.05.2023).
  14. Землянский С.А., Аксенов С.В., Лызин И.А., Берестнева О.Г. Тематическое моделирование в контексте медицинских текстов. Доклады Томского государственного университета систем управления и радиоэлектроники 2021; 24 (4): 58–64. Режим доступа: https://elibrary.ru/download/elibrary_48125034_12420785.pdf. DOI: 10.21293/1818-0442-2021-24-4-58-64. (Дата обращения: 10.05.2023).
  15. Пальмов С.В., Мячина А.С. Обзор возможностей СУБД Neo4j. Евразийское Научное Объединение 2020: 5-2 (63): 159–163. Режим доступа: https://elibrary.ru/download/elibrary_43043682_15908944.pdf. DOI: 10.5281/zenodo.3888099. (Дата обращения: 10.05.2023).
  16. Баев А.В., Самонов А.В., Сафонов В. М. Методика проектирования автоматизированных систем управления специальными организационно-техническими системами. Моделирование, оптимизация и информационные технологии 2021; 9 (4 (35)): 1–14. Режим доступа: https://elibrary.ru/download/elibrary_48054840_90278146.pdf. DOI: 10.26102/2310-6018/2021.35.4.019. (Дата обращения: 10.05.2023).
  17. Козлов С.В., Светлаков А.В. Применение регулярных выражений для обработки текстовых данных. International Journal of Open Information Technologies 2022; 10 (9): 82–89. Режим доступа: https://elibrary.ru/download/elibrary_49378832_32391183.pdf. (Дата обращения: 10.05.2023).
  18. Пруцков А.В., Сусанина И.В. Практическое применение функционального программирования и регулярных выражений в библиометрическом анализе. International Journal of Open Information Technologies 2022; 10 (5): 63–68. Режим доступа: https://elibrary.ru/download/elibrary_48495986_14922921.pdf. (Дата обращения: 10.05.2023).
  19. Старовойтов В.В., Голуб Ю.И. Об оценке результатов классификации несбалансированных данных по матрице ошибок. Информатика 2021; 18 (1): 61–71. Режим доступа: https://elibrary.ru/download/elibrary_44888534_68247811.pdf. DOI: 10.37661/10.37661/1816-0301-2021-18-1-61-71. (Дата обращения: 10.05.2023).
  20. Горячкин Б.С., Чечнев А.А. Анализ чувствительности метрик бинарной классификации к дисбалансу данных. E-Scio 2021; 4 (55): 23–34. Режим доступа: https://elibrary.ru/download/elibrary_45804780_51460702.pdf. (Дата обращения: 10.05.2023).
  21. Пизова Н.В., Пизов А.В. Боль в спине и остеопороз позвоночника в клинической практике. Медицинский совет 2019; 18: 119–126. Режим доступа: https://elibrary.ru/download/elibrary_41389397_84433419.pdf. DOI: 10.21518/2079-701X-2019-18-119-126. (Дата обращения: 10.05.2023).

References

  1. Erdes ShF, Rebrov AP, Dubinina TV, Badokin VV, Bochkova AG, Bugrova OV. Spondiloartrity: sovremennaya terminologiya i opredeleniya [Spondyloarthritis: modern terminology and definitions]. Terapevticheskij arhiv 2019; 91 (5): 84–88. Available from: https://journals.eco-vector.com/files/journals/80/articles/33624/public/33624-58517-1-PB.pdf. DOI: 10.26442/00403660.2019.05.000208. (Data accesses: May 10, 2023). (In Rus.).
  2. Dubinina TV, Demina AB. Metody luchevoj diagnostiki kak instrument monitoringa aksial'nogo spondiloartrita v real'noj klinicheskoj praktike [Radiologic methods as a tool for monitoring axial spondyloarthritis in real clinical practice]. Sovremennaja revmatologija 2022; 16 (1): 91–96. Available from: https://elibrary.ru/download/elibrary_47989650_27110879.pdf. DOI: 10.14412/1996-7012-2022-1-91-96. (Data accesses: May 10, 2023). (In Rus.).
  3. Shostak NA, Pravdyuk NG, Novikova AV. Porazhenie osevogo skeleta v praktike revmatologa [Axial skeleton injury in rheumatology practice]. Nervnye bolezni 2021; 3: 38–43. Available from: https://elibrary.ru/download/elibrary_47184063_10820901.pdf. DOI: 10.24412/2226-0757-2021-12353. (Data accesses: May 10, 2023). (In Rus.).
  4. Chichasova NV. Differencial'naya diagnostika pri porazhenii sustavov i pozvonochnika [Differential diagnosis in joint and spine damages]. Sovremennaja revmatologija 2020; 14 (2): 14–19. Available from: https://elibrary.ru/download/elibrary_43934398_24843575.pdf. DOI: 10.14412/1996-7012-2020-2-14-19. (Data accesses: May 10, 2023). (In Rus.).
  5. Golovach IYu, Yehudina YeD, Ter-Vartanіan SKh. Rol' vizualizacionnyh metodov issledovaniya v diagnostike i menedzhmente aksial'nogo spondiloartrita [The role of imaging methods in the diagnosis and management of axial spondyloarthritis]. Trauma 2020; 21 (1): p. 102–115. Available from: https://elibrary.ru/download/elibrary_42595996_76759469.pdf. DOI: 10.22141/1608-1706.1.21.2020.197805. (Data accesses: May 10, 2023). (In Rus.).
  6. Safarova KN, Makhina VI, Reprov AP. Anemiya i remodelirovanie miokarda levogo zheludochka u pacientov s aksial'nymi spondiloartritami - sushchestvuet li vzaimosvyaz'? [Anemia and left ventricular remodeling in patients with axial spondyloarthritis — is there any association?]. Russkij medicinskij zhurnal 2021; 29 (7): 18–23. Available from: https://www.rmj.ru/articles/kardiologiya/Anemiya_iremodelirovanie_miokarda_levogo_gheludochka_upacientov_saksialynymi_spondiloartritami__suschestvuet_livzaimosvyazy/. (Data accesses: May 10, 2023). (In Rus.).
  7. Dibrov DA, Korotaeva TV, Krasnenko SO, Urumova MM, Kruglova LS, Lila AM. Ankiloziruyushchij spondilit v sochetanii s kombinirovannym autovospalitel'nym porazheniem kozhi (klinicheskoe nablyudenie i obzor literatury) [Combination of ankylosing spondylitis with combined autoinflammatory skin lesions (clinical observation and literature review)]. Sovremennaja revmatologija 2021; 15 (4): 81–86. Available from: https://elibrary.ru/download/elibrary_46424028_30722634.pdf. DOI: 10.14412/1996-7012-2021-4-81-86. (Data accesses: May 10, 2023). (In Rus.).
  8. Erdes ShF, Korotaeva TV. Progressirovanie aksial'nogo spondiloartrita [Progression of axial spondyloarthritis]. Sovremennaja revmatologija 2021; 15 (3): 7–14. Available from: https://elibrary.ru/download/elibrary_46180513_16476113.pdf. DOI: 10.14412/1996-7012-2021-3-7-14. (Data accesses: May 10, 2023). (In Rus.).
  9. Gaiduk AS, Zheleznyak IS, Tyrenko VV, Anokhin DYu, Malakhovsky VN, Emelyantsev AA, et al. Cifrovoj tomosintez i drugie metody vizualizacii v rannej diagnostike aksial'nyh spondiloartritov: obzor literatury [Digital tomosynthesis and other visualization methods in the early detection of axial spondyloarthritis: a review]. Luchevaja diagnostika i terapija 2022; 13 (2): 25–35. Available from: https://elibrary.ru/download/elibrary_49339944_38220803.pdf. DOI: 10.22328/2079-5343-2022-13-2-25-35. (Data accesses: May 10, 2023). (In Rus.).
  10. Moiseev SV, Novikov PI, Gulyaev SV, Kuznetsova EI, Shevtsova TP, Shafieva IA, et al. Ankilozirujushhij spondilit: podhody k diagnostike i klinicheskaja jeffektivnost' upadacitiniba [Ankylosing spondylitis: diagnostic challenges and efficacy of upadacitinib]. Klinicheskaja farmakologija i terapija 2021; 30 (4): 62–70. Available from: https://elibrary.ru/download/elibrary_47966615_73628365.pdf. DOI: 10.32756/0869-5490-2021-4-62-70. (Data accesses: May 10, 2023). (In Rus.).
  11. Bobojonova ShYQ, Akhmedov OS. Semantic analysis of medical lexicon in United medical Language system. Herald of Science and Education 2020; 15-2 (93): p. 39–41. Available from: https://elibrary.ru/download/elibrary_43771264_23900124.pdf. (Data accesses: May 10, 2023).
  12. Bodenreider O. The Unified Medical Language System (UMLS): integrating biomedical terminology. Nucleic Acids Res 2004; 32: p. 267–270. Available from: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC308795/. DOI: 10.1093/nar/gkh061. (Data accesses: May 10, 2023).
  13. Torshin IYu, Gromova OA, Stakhovskaya LV, Vanchakova NP, Galustyan AN, Kobalava ZhD, et al. Analiz 19,9 mln publikacij bazy dannyh PubMed/MEDLINE metodami iskusstvennogo intellekta: podhody k obobshheniju nakoplennyh dannyh i fenomen «fake news» [Analysis of 19.9 million publications from the PubMed/Medline database using artificial intelligence methods: approaches to the generalizations of accumulated data and the phenomenon of «fake news»]. Farmakojekonomika. Sovremennaja farmakojekonomika i farmakojepidemiologija 2020; 13 (2): 146–163. Available from: https://elibrary.ru/download/elibrary_43776170_84342782.pdf. DOI: 10.17749/2070-4909/farmakoekonomika.2020.021. (Data accesses: May 10, 2023). (In Rus.).
  14. Zemlyansky SA, Axyonov SV, Lyzin IA, Berestneva OG. Tematicheskoe modelirovanie v kontekste medicinskih tekstov [Topic modeling in the context of medical texts]. Doklady Tomskogo gosudarstvennogo universiteta sistem upravleniya i radioelektroniki 2021; 24 (4): 58–64. Available from: https://elibrary.ru/download/elibrary_48125034_12420785.pdf. DOI: 10.21293/1818-0442-2021-24-4-58-64. (Data accesses: May 10, 2023). (In Rus.).
  15. Palmov SV, Myachina AS. Obzor vozmozhnostej SUBD Neo4j [DBMS Neo4j review]. Evrazijskoe Nauchnoe Ob"edinenie 2020: 5-2 (63): 159–163. Available from: https://elibrary.ru/download/elibrary_43043682_15908944.pdf. DOI: 10.5281/zenodo.3888099. (Data accesses: May 10, 2023). (In Rus.).
  16. Baev AV, Samonov AV, Safonov VM. Metodika proektirovanija avtomatizirovannyh sistem upravlenija special'nymi organizacionno-tehnicheskimi sistemami [Methodology of designing automated control systems for dedicated organizational and technical systems]. Modelirovanie, optimizaciya i informacionnye tekhnologii 2021; 9 (4 (35)): 1–14. Available from: https://elibrary.ru/download/elibrary_48054840_90278146.pdf. DOI: 10.26102/2310-6018/2021.35.4.019. (Data accesses: May 10, 2023). (In Rus.).
  17. Kozlov SV, Svetlakov AV. Primenenie reguljarnyh vyrazhenij dlja obrabotki tekstovyh dannyh [Using regular expressions to process text data]. International Journal of Open Information Technologies 2022; 10 (9): 82–89. Available from: https://elibrary.ru/download/elibrary_49378832_32391183.pdf. (Data accesses: May 10, 2023). (In Rus.).
  18. Prutzkow AV, Susanina IV. Prakticheskoe primenenie funkcional'nogo programmirovanija i reguljarnyh vyrazhenij v bibliometricheskom analize [Practical application of functional programming and regular expressions in bibliometric analysis]. International Journal of Open Information Technologies 2022; 10 (5): 63–68. Available from: https://elibrary.ru/download/elibrary_48495986_14922921.pdf. (Data accesses: May 10, 2023). (In Rus.).
  19. Starovoitov VV, Golub YuI. Ob ocenke rezul'tatov klassifikacii nesbalansirovannyh dannyh po matrice oshibok [About the confusion-matrix-based assessment of the results of imbalanced data classification]. Informatika 2021; 18 (1): 61–71. Available from: https://elibrary.ru/download/elibrary_44888534_68247811.pdf. DOI: 10.37661/10.37661/1816-0301-2021-18-1-61-71. (Data accesses: May 10, 2023). (In Rus.).
  20. Goryachkin BS, Chechnev AA. Analiz chuvstvitel'nosti metrik binarnoj klassifikacii k disbalansu dannyh [Binary classification metrics sensibility estimation in data imbalance]. E-Scio 2021; 4 (55): 23–34. Available from: https://elibrary.ru/download/elibrary_45804780_51460702.pdf. (Data accesses: May 10, 2023). (In Rus.).
  21. Pizova NV, Pizov AV. Bol' v spine i osteoporoz pozvonochnika v klinicheskoj praktike [Back pain and spinal osteoporosis in clinical practice]. Medicinskij sovet 2019; 18: 119–126. Available from: https://elibrary.ru/download/elibrary_41389397_84433419.pdf. DOI: 10.21518/2079-701X-2019-18-119-126. (Data accesses: May 10, 2023). (In Rus.).

Просмотров: 1526

Ваш комментарий будет первым

Добавить комментарий
  • Пожалуйста оставляйте комментарии только по теме.
  • Вы можете оставить свой комментарий любым браузером кроме Internet Explorer старше 6.0
Имя:
E-mail
Комментарий:

Код:* Code

Последнее обновление ( 28.08.2023 г. )
« Пред.   След. »
home contact search contact search