АВТОМАТИЗИРОВАННАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ КЛИНИЧЕСКИ РЕЛЕВАНТНЫХ ТЕРМИНОВ UMLS ИЗ ТЕКСТОВ АНГЛОЯЗЫЧНЫХ СТАТЕЙ НА ПРИМЕРЕ АКСИАЛЬНОГО СПОНДИЛОАРТРИТА |
27.07.2023 г. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
DOI: 10.21045/2071-5021-2023-69-3-14
Астанин П.А., Раузина С.Е., Зарубина Т.В. Резюме Актуальность. Выявление ранних признаков аксиального спондилоартрита (аксСпА) является сложной клинической задачей. Повышение качества диагностики данного заболевания на уровне первичного амбулаторного звена возможно при использовании систем информационной поддержки принятия решений, основанных на применении онтологического подхода. Ключевой этап разработки подобных инструментов заключается в формировании свода терминов, описывающих предметную область. Обязательным условием является соответствие используемых клинических формулировок существующим номенклатурам понятий. На сегодняшний день крупнейшим сводом биомедицинских справочников является Unified Medical Language System (UMLS), значительная часть терминов которого представлена только на английском языке. Создание инструментов извлечения клинически релевантных формулировок из текста научных статей позволит сформировать терминологический свод для аксСпА и выделить перечень справочников UMLS, нуждающихся в адаптации и экспертном переводе на русский язык. Целью исследования является разработка автоматизированной системы извлечения клинически релевантных терминов метатезауруса UMLS из текста аннотаций к англоязычным статьям. Материал и методы. В качестве материала исследования выступают англоязычные термины (11,2 млн) из 76 справочников актуальной версии UMLS (2022AB) и тексты аннотаций к англоязычным статьям из поисковой системы PubMed. Для работы применялись запросы к графовой информационной модели UMLS, алгоритмы семантического анализа неструктурированного текста и методы машинного обучения. Результаты. В ходе исследования создан набор регулярных выражений для очистки корпуса текстов от метаданных (F1-score=98%) и выделены паттерны поиска клинически релевантных терминов UMLS в извлеченном своде формулировок. С использованием алгоритма логистической регрессии обучен бинарный классификатор, принимающий на вход информацию о термине UMLS и возвращающий метку наличия или отсутствия признака клинической релевантности. Заключение. Разработанная модель классификации терминов подвергнута однократной валидации и двукратному тестированию на различных сводах терминов. Значения метрик точности, чувствительности и специфичности модели составили 91%, 90% и 91%, соответственно, для валидационной выборки (части терминов, полученных для аксСпА). При тестировании на сводах терминов, полученных для двух других заболеваний, значения точности составили 91% и 90%, соответственно. С использованием созданной модели машинного обучения было установлено, что UMLS содержит около 1,5 млн уникальных терминов, применимых для описания клинической картины заболеваний. Созданы перечни приоритетных справочников и групп клинически релевантных терминов UMLS, требующих экспертного перевода и адаптации на русский язык. Ключевые слова: UMLS; NLP; извлечение именованных сущностей; регулярные выражения; машинное обучение; аксиальный спондилоартрит.
Контактная информация: Астанин Павел Андреевич, email:
Этот e-mail защищен от спам-ботов. Для его просмотра в вашем браузере должна быть включена поддержка Java-script
AUTOMATED SYSTEM FOR RECOGNIZING CLINICALLY RELEVANT UMLS TERMS IN
TEXTS OF THE ENGLISH-LANGUAGE ARTICLES EXEMPLIFIED BY AXIAL
SPONDYLOARTHRITIS Abstract Significance. Early detection of axial spondyloarthritis (axSpA) is a complex clinical task. Quality improvement of axSpA diagnostics in primary care settings is possible with the help of decision-making information systems based on the ontological approach application. The key stage of the decision-making system development consists of the elaboration of a set of clinical terms. This set should fully describe clinical area or sub-area under study. One of the essential requirements is compliance of the clinical terms used with the existing clinical nomenclatures. Currently, the largest set of clinical terms is the Unified Medical Language System (UMLS) metathesaurus. The majority of UMLS terms is presented in English only. The development of tools for the analysis of unstructured texts and recognition of clinically relevant UMLS entities make it possible to elaborate a set of terms describing axSpA diagnostic aspects. This will also help to compile a list of UMLS terminology nomenclatures for their priority adaptation and expert translation into Russian. The purpose of this study is to develop an automated system for recognizing clinically relevant UMLS terms in texts of the English-language articles. Material and methods. The research material has included English terms (11.2 million) aggregated from 76 nome6nclatures of the current UMLS (2022AB) version. In addition, the study has used texts of PubMed clinical abstracts in English. Queries to the UMLS graph model, semantic algorithms for unstructured texts and machine-learning methods have been applied for data collection and analysis. Results. The study has elaborated a set of high-accuracy regular expressions (F1-score=98%) for metadata elimination from the text corpus. Then the authors have identified patterns for searching clinically relevant terms in the aggregated set of UMLS concepts. Using a logistic regression algorithm, the authors have trained a binary classification model. Input data for the created classificatory are information about an UMLS term. Output data are a label indicating the presence or absence of clinical relevance. Conclusion. The binary classification model has been validated individually and double-tested on different data samples. Values of the accuracy, sensitivity and specificity of metrics equal to 91%, 90% and 91%, respectively, for the validation sample (a number of axSpA terms). In addition, this model has been tested on the sets of terms aggregated for any two diseases. Values of the accuracy metric equal to 91% and 90%, respectively. With the help of the developed machine-learning model, the study has estimated that UMLS contains 1.5 million unique terms applicable to describing a clinical picture. In addition, lists of priority UMLS data sources and thematic groups have been compiled. These clinically relevant UMLS terms should be adapted and translated into Russian as soon as possible. Keywords: UMLS; NLP; named-entity recognition; regular expressions; machine learning; axial spondyloarthritis
Corresponding author: Pavel A. Astanin, email:
Этот e-mail защищен от спам-ботов. Для его просмотра в вашем браузере должна быть включена поддержка Java-script
Введение Согласно определению экспертной группы по изучению спондилоартритов при Ассоциации ревматологов России, аксиальный спондилоартрит (аксСпА) – это спондилоартрит с преимущественным поражением позвоночника и крестцово-подвздошных суставов [1]. В настоящее время принято выделять две основные формы аксСпА: нерентгенологический аксСпА без радиографических признаков воспаления в крестцово-подвздошных сочленениях и анкилозирующий спондилит (АС), характеризующийся наличием радиографических признаков сакроилиита [2]. Частыми и наиболее выраженными клиническими проявлениями аксСпА являются утренняя скованность и боль в поясничной области, ослабевающая или исчезающая при физической нагрузке. Поскольку данные симптомы характерны для широкого спектра заболеваний нервной и костно-мышечной систем, наиболее распространенной ошибкой при ведении пациентов с неуточненным диагнозом является многолетнее безрезультатное наблюдение у специалистов неревматологического профиля: ортопедов, неврологов, амбулаторных хирургов [3–4]. АксСпА характеризуется поздней диагностикой: медиана длительности от возникновения первых клинических проявлений до постановки диагноза составляет 5–10 лет [5]. Многочисленные васкулиты, развивающиеся в ходе длительных аутоиммунных процессов, могут приводить к нарушению функции любых других органов и систем [6]. В связи с этим аксСпА нередко сопровождается возникновением внескелетных проявлений, среди которых принято выделять увеиты, воспалительные заболевания кишечника и поражения кожи [7]. В ряде случаев клиническая картина течения аксСпА может значительно отличаться от классической. Раннему выявлению аксСпА препятствует системный характер заболевания, приводящий к широкой вариабельности клинических и лабораторно-инструментальных находок [8–10]. Увеличение числа случаев ранней диагностики аксСпА возможно при обеспечении информационной поддержки принятия решений на уровне первичного звена с применением систем, основанных на использовании онтологического подхода. Первым шагом в разработке подобных систем является создание свода клинических терминов, покрывающих исследуемую область. Крупнейшим источником биомедицинских терминов является Unified medical language system (UMLS) – метатезаурус, включающий 76 актуальных справочников и словарей [11–12]. Актуальная версия UMLS (2022AB) содержит три справочника терминов (304 тыс.), экспертно адаптированных и переведенных на русский язык. Их доля составляет менее 3% от суммарного числа русскоязычных и англоязычных терминов (11,5 млн), представленных в UMLS. По этой причине наиболее целесообразным способом построения свода клинических формулировок является извлечение именованных сущностей из англоязычных текстов с использованием оригинальных версий справочников UMLS и последующий экспертный перевод выделенных терминов на русский язык. На сегодняшний день большинство актуальных англоязычных статей по различным клиническим направлениям представлено в поисковой системе PubMed [13]. Возможность извлечения текстов аннотаций к статьям, находящимся в открытом доступе, предоставляется любому пользователю [14]. При правильном формировании поискового запроса может быть выгружен массивный корпус текстов, широко покрывающий соответствующую клиническую область. Оценка смысловой значимости терминов, извлекаемых из текстов аннотаций к научным статьям, позволит определить паттерны автоматического поиска клинически релевантных концептов – терминов, содержащих информацию о клинических проявлениях и симптомах, лабораторно-инструментальных находках, сопутствующих и коморбидных заболеваниях. Подобные паттерны могут быть использованы для определения приоритетных справочников и групп терминов UMLS, нуждающихся в экспертном переводе и адаптации на русский язык. Целью исследования является разработка автоматизированной системы извлечения клинически релевантных терминов метатезауруса UMLS из текста аннотаций к англоязычным статьям. Материалы и методы Исследование проведено в рамках стратегического проекта «Приоритет – 2030» на базе Института цифровой трансформации медицины (ИЦТМ) ФГАОУ ВО «Российский национальный исследовательский медицинский университет имени Н. И. Пирогова» Минздрава России. В работе задействованы англоязычные термины (11,2 млн) из 76 справочников актуальной версии UMLS (2022AB). Процесс подготовки корпуса текстов аннотаций к англоязычным статьям включал несколько этапов. На первом этапе с использованием системы управления базами данных Neo4j была создана графовая модель UMLS [15]. С применением декларативного языка запросов Cypher в реализованной модели определялся корневой концепт, соотнесенный с кодом заболевания из справочника международной классификации болезней 10 пересмотра (МКБ-10) [16]. В данной работе корневой нозологии соответствовал код «M45» – «Анкилозирующий спондилит» (поскольку самостоятельный код для аксСпА в справочнике МКБ-10 отсутствует). Затем с использованием графовой информационной модели UMLS для данного концепта извлекались узлы, соединенные с корневым термином одним или несколькими из следующих типов связей: SY – synonymous relationships (строго синонимичные связи), RN – narrower relationships и CHD – child relationships (вертикальные связи родительских терминов с дочерними). Данные типы связей обеспечивают поиск синонимичных и дочерних терминов (пример графового поиска терминов представлен на рисунке 1).
На втором этапе для корневого концепта, а также его синонимичных и дочерних терминов извлекались все варианты написания, представленные в справочниках и словарях UMLS. Полученные формулировки корневого заболевания использовались для составления запроса на выгрузку аннотаций к статьям из системы PubMed. Аннотация включалась в корпус, если хотя бы одна из формулировок корневого заболевания дословно встречалась в ее наименовании или основном тексте. Корпус аннотаций сохранялся на жесткий диск. На третьем этапе осуществлялась подготовка текста к извлечению именованных сущностей с использованием средств языка программирования Python. Корпус текстов разбивался на абзацы, каждый из которых отделялся в исходном файле двумя знаками табуляции. При первичном изучении корпуса было выявлено ключевое преимущество использования системы PubMed, которое заключается в четком обособлении абзацев с метаданными от абзацев с полезной клинической информацией (текстом аннотаций). Экспертным способом сформулированы правила для проверки абзацев на предмет наличия в них метаданных. Если хотя бы одно из них выполнялось, соответствующий абзац исключался из корпуса текстов. Каждое правило было реализовано с использованием регулярных выражений и проверено на 542 извлеченных из корпуса случайным способом абзацах текста (таблица 1) [17–18]. Таблица 1 Критерии исключения абзацев с метаданными из корпуса текстов аннотаций к англоязычным статьям поисковой системы PubMed
Из данных таблицы 1 следует, что комбинированное применение всех 13 семантических правил обеспечивает высокое качество оценки наличия метаданных в тексте. Итоговый F1-score суммарного свода правил составил 98%. На четвертом шаге из оставшихся абзацев удалялись все данные, заключенные в квадратные скобки. Двойные пробелы заменялись на одинарные. Затем осуществлялся поиск точных совпадений терминов в тексте с англоязычными терминами из UMLS. Каждый уникальный термин вносился в таблицу с указанием абсолютной частоты встречаемости в корпусе. После обработки корпуса текстов каждому извлеченному термину, в зависимости от его клинической релевантности, экспертным способом была присвоена бинарная метка принадлежности к соответствующему классу. Не считались клинически релевантными термины, относящиеся к высокоспецифичным лабораторно-инструментальным методам диагностики и специализированным терапевтическим процедурам. Экспертная работа с указанными терминами не входила в задачи настоящего исследования, однако должна быть проведена в дальнейшем с целью выявления соответствующих паттернов поиска. В настоящей работе паттерны поиска выделялись только для клинически релевантных терминов UMLS. Для извлечения паттернов проведена статистическая обработка полученных данных. Для количественного описания групп терминов (в зависимости от их клинической релевантности) рассчитывались их абсолютные и относительные частоты. Оценка различий производилась с использованием непараметрического критерия Х2 или точного критерия Фишера (при наличии в ячейках таблиц сопряженности значений менее 5). Статистически значимыми считались результаты проверки гипотез при p<0,050. Интегральная оценка выявленных паттернов поиска осуществлялась с использованием логистической регрессионной модели. Весь набор извлеченных терминов был разбит на обучающую и валидационную подвыборки в соотношении 80/20. Оценка качества определения клинической релевантности терминов производилась на валидационной подвыборке и двух тестовых выборках. Первая тестовая выборка включала термины, извлеченные из корпуса текстов аннотаций к статьям об остеопорозе позвоночника (M80.5, M81.5) – одном из заболеваний дифференциально-диагностического ряда для аксСпА. Вторая тестовая выборка включала термины, извлеченные из аннотаций к статьям по язве желудка и двенадцатиперстной кишки (K25, K26) – заболевании, не входящем в дифференциально-диагностический ряд для аксСпА. При сбалансированном соотношении классов определялись метрики точности, чувствительности и специфичности. При выраженном дисбалансе классов рассчитывался F1-score [19]. Интегральная оценка качества классификации производилась с использованием ROC-анализа и последующего определения площади под характеристической кривой (AUC) [20]. Результаты При обработке корпуса аннотаций к англоязычным статьям по аксСпА извлечено 7818 уникальных терминов, каждый из которых принадлежал к одному или нескольким справочникам. При сопоставлении данных терминов со справочниками UMLS получено 43476 уникальных атомарных формулировок. Доля клинически релевантных терминов в извлеченном своде составила ~42%. После экспертной разметки были проанализированы частоты принадлежности релевантных и нерелевантных терминов к различным справочникам UMLS. Анализировались справочники, для которых доля релевантных атомарных формулировок UMLS оказалась не ниже 42%, а общее число терминов – не ниже 50. (результаты представлены в таблице 2). Таблица 2 Структура распределения терминов, извлеченных из корпуса аннотаций к англоязычным статьям, по справочникам UMLS
Из данных таблицы 2 следует, что 10896 (~72%) клинически релевантных атомарных формулировок агрегировано из 19 справочников UMLS. В общей сложности в указанных справочниках содержится около 3,5 млн терминов, что составляет 30% от общего числа терминов из всех 76 справочников метатезауруса. Наибольшее число терминов извлечено из крупнейших международных справочников со следующими кодовыми названиями: SNOMEDCT_US (~14%), MDR (~6%), MEDCIN (~4%), OMIM (~3%), ICPC2P (~2%). Доля релевантных терминов оказалась наиболее высокой в справочниках со следующими кодовыми названиями: HPO (~92%), ICD10 (~81%), ICD10CM (~91%), MTHICD9 (~80%), ORPHANET (~80%). Каждый термин из полученного свода соотносился с тематической группой соответствующего концепта UMLS. Выделены наиболее значимые группы клинически релевантных терминов. Результаты количественной оценки частоты встречаемости формулировок в различных тематических группах UMLS представлены в таблице 3. Отражены результаты только по тем группам, в которых доля релевантных терминов была не ниже 42%, а общее число терминов – не ниже 50. Таблица 3 Структура распределения терминов, извлеченных из корпуса аннотаций к англоязычным статьям, по тематическим группам UMLS
Из данных таблицы 3 следует, что большинство (~86%) релевантных терминов принадлежит к следующим тематическим группам: T019, T020, T033, T037, T046, T047, T048, T049, T184, T190 и T191. Все указанные группы входят в класс Disorders (Расстройства) семантической сети UMLS. Не выявлено статистически значимых различий по соотношению релевантных и нерелевантных терминов в тематической группе T033. По всем остальным группам установлены статистически значимые различия, позволяющие сделать вывод об общей степени предпочтительности соответствующих терминов при описании клинической картины заболевания. Наконец, дополнительно были проанализированы параметры, присвоенные экспертным способом каждой формулировке разработчиками справочников UMLS. К числу данных параметров отнесены текущий статус термина, приоритет термина в справочнике и способ записи термина. Таблица 4 Структура распределения терминов, извлеченных из корпуса аннотаций к англоязычным статьям, по семантическим атрибутам
Из данных таблицы 4 следует, что доля клинически релевантных терминов с актуальным статусом оказалась значимо выше. Наиболее предпочтительными при описании клинической картины аксСпА были варианты терминов с измененным подчинением слов и их перестановками. Однако установлено, что термины с меткой пониженного приоритета значимо чаще могут применяться для описания клинической картины. Большое количество выявленных статистически значимых различий указывает на наличие закономерностей, которые могут применяться для определения релевантных терминов с целью их последующего включения в свод для описания отдельных биомедицинских областей. С использованием данных о тематической принадлежности, источнике происхождения и семантических атрибутах извлеченных формулировок был построен бинарный классификатор, определяющий факт наличия или отсутствия клинической релевантности терминов UMLS. Значения метрик точности, чувствительности и специфичности классификатора для валидационной выборки (n=8696) составили 91 [91; 92]%, 90 [90; 91]% и 91 [90; 92]%, соответственно (при пороговом значении логистической функции, равном 0,500). Значение AUC при ROC-анализе оказалось равным 0,949, что дополнительно подтверждает высокое качество автоматического определения клинической релевантности терминов (рисунок 2).
Необходимо отметить, что экстраполяция паттернов поиска клинически релевантных терминов метатезауруса UMLS в неструктурированном тексте требует предварительного тестирования созданной модели на сводах формулировок, полученных не только для аксСпА, но и для других заболеваний. Ранее упоминалось, что для проверки качества работы модели использованы своды терминов для двух заболеваний: остеопороза позвоночника, принадлежащего к дифференциально-диагностическому ряду по аксСпА, и язвы желудка и двенадцатиперстной кишки – заболевания, не входящего в этот ряд [21]. Разметка формулировок, извлеченных из аннотаций к статьям по остеопорозу позвоночника, выполнялась экспертом, определявшим метки для основного свода терминов (по аксСпА). Термины, извлеченные из аннотаций к статьям по язве желудка и двенадцатиперстной кишки, размечались независимо другим экспертом. При тестировании классификатора получены значения точности в 91% для терминов, извлеченных из текстов по остеопорозу позвоночника, и 90% для терминов по язве желудка и двенадцатиперстной кишки (таблица 5). Таблица 5 Результаты тестирования модели оценки клинической релевантности терминов UMLS
Обсуждение Результаты оценки качества работы модели позволяют сделать заключение о ее применимости при нахождении клинически релевантных терминов в тексте аннотаций к англоязычным статьям. С высокой долей вероятности можно сделать предположение, что выявленные паттерны поиска терминов, и созданная модель классификации применимы при работе со сводами формулировок, описывающих клиническую картину ревматических заболеваний. С меньшей степенью уверенности можно говорить о возможности применения результатов настоящего исследования при выделении терминов для других нозологических групп. В настоящее время система извлечения клинически релевантных терминов UMLS из текста англоязычных статей реализована в виде двух самостоятельных программных модулей и внедрена в работу Института цифровой трансформации медицины РНИМУ им. Н. И. Пирогова. В ходе работы первого модуля производится извлечение синонимичных терминов и дочерних формулировок для перечня кодов МКБ-10, заданных пользователем. Выходными данными является формализованный текст запроса к поисковой системе PubMed. После отправки запроса пользователь должен указать глубину поиска клинических материалов, установить фильтр на типы используемых научных изданий и сохранить сформированный корпус аннотаций на жесткий диск. Второй модуль принимает на вход указанный корпус текстов, производит очистку от метаданных, а также осуществляет извлечение и сохранение перечня именованных сущностей UMLS. Предусмотрена возможность сохранения только тех терминов, которые были размечены как клинически релевантные с использованием весовых коэффициентов, полученных при обучении логистической регрессионной модели. Заключение По предварительным оценкам, полученным с использованием разработанного классификатора, UMLS содержит около 1,5 млн уникальных англоязычных терминов, которые могут быть использованы для описания клинической картины заболеваний. Большинство терминов принадлежит к международным медицинским справочникам (SNOMED CT, MedDRA, ICD10) и тематическим группам UMLS, относящимся к классу Disorders (Расстройства) семантической сети и имеющим следующие коды: T019, T020, T033, T037, T046, T047, T048, T049, T184, T190 и T191. В настоящее время создан ранжированный перечень терминов UMLS, нуждающихся в экспертном переводе и адаптации на русский язык. Использование системы приоритетов обеспечит скорейшее создание полноценного свода терминов, описывающих клинические признаки и симптомы заболеваний. Предполагается, что данный свод сможет применяться в работе информационно-поисковых алгоритмов и систем интеллектуальной поддержки принятия клинических решений, основанных на анализе неструктурированного русскоязычного текста. В свою очередь выделенные клинически релевантные термины для аксСпА будут использованы при проектировании структуры модели знаний и создании системы поддержки принятия решений для дифференциальной диагностики данного заболевания. К перспективам дальнейших исследований необходимо отнести формирование паттернов поиска диагностически и терапевтически релевантных концептов UMLS, а также создание алгоритма извлечения клинических аббревиатур и семантических связей, основанных на синтаксическом разборе предложений из текста на русском языке. Библиография
References
Просмотров: 2258
Добавить комментарий
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Последнее обновление ( 28.08.2023 г. ) |
« Пред. | След. » |
---|