СИСТЕМА АВТОМАТИЧЕСКОЙ РАЗМЕТКИ НЕСТРУКТУРИРОВАННЫХ ПРОТОКОЛОВ РЕНТГЕНОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ ГРУДНОЙ КЛЕТКИ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ СЕМАНТИЧЕСКОГО АНАЛИЗА |
07.03.2023 г. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
DOI: 10.21045/2071-5021-2023-69-1-12
1Ронжин Л. В., 1Астанин П. А., 2Кокина Д. Ю., 2Семенов С. С., 2Арзамасов К. М., 1Раузина С. Е. Резюме В настоящее время не существует единого структурированного стандарта описания рентгенологических исследований органов грудной клетки. Сложность создания такого стандарта заключается в многочисленности методик лучевой диагностики, разнообразии диагностических задач и особенностях работы отдельных медицинских организаций. Разработка инструментов разметки существующих неструктурированных протоколов рентгенологических исследований позволит усовершенствовать систему электронного документооборота в сфере медицины за счет автоматизации процессов формализации данных, а также подготовить наборы данных для машинного обучения. Целью настоящего исследования является разработка системы автоматической разметки текстовых заключений в протоколах рентгенологических исследований органов грудной клетки на основе экспертных методов и методов машинного обучения. Материалы и методы. В качестве материала исследования выступают диагностические данные о пациентах, проходивших рентгенологические исследования грудной клетки в подключенных к Единому радиологическому информационному сервису Единой медицинской информационно-аналитической системы амбулаторных и стационарных медицинских организаций Москвы и Московской области. Для обработки неструктурированных текстовых протоколов использованы методы семантического анализа, экспертные правила и алгоритмы машинного обучения. Результаты. В ходе исследования выявлены языковые паттерны, свойственные классам наиболее важных патологических состояний и классу «норма», а также созданы соответствующие им регулярные выражения. Составлен словарь рентгенологических терминов и сокращений (397 слов), после чего разработан алгоритм коррекции грамматических ошибок в протоколах. Совместно с врачами-рентгенологами экспертной группы сформированы правила для многозначной классификации протоколов рентгенологического исследования и оценена их эффективность. При решении задачи многозначной классификации с использованием только экспертных правил процент точных совпадений составил 84%. В связи с недостаточной эффективностью решателей для таких состояний, как «инфильтрация/консолидация» и «очаг затемнения», проведена настройка моделей машинного обучения. Заключение. Наилучшие результаты классификации показала рекуррентная нейронная сеть, позволившая достичь значений показателя чувствительности в 89 и 99%, соответственно, для «инфильтрации/консолидации» и «очага затемнения», что позволило статистически значимо (p=0,039) повысить общий процент точных совпадений до 87%. Ключевые слова: семантический анализ; машинное обучение; неструктурированные данные; анализ текстов; NLP; языковые модели
Контактная информация: Астанин Павел Андреевич,
Этот e-mail защищен от спам-ботов. Для его просмотра в вашем браузере должна быть включена поддержка Java-script
SEMANTIC ANALYSIS METHODS IN THE SYSTEM FOR AUTHOMATED MARKING OF THE UNSTRUCTURED RADIOLOGICAL CHEST EXAMINATION PROTOCOLS Abstract Currently, a unified structured standard for describing radiological chest examination does not exist. The complexity of developing such text report templates lies in the diversity of instrumental methods, variety of diagnostic objectives and specific work characteristics of individual medical organizations. Development of tools for marking the unstructured radiological chest examination protocols makes it possible to improve the system of electronic document management in healthcare due to automation of data formalization processes as well as develop data sets for machine learning. The purpose of this study is to develop a system for automated marking of text reports of the unstructured radiological chest examination protocols using heuristic approach and machine learning algorithms. Material and methods. The study used patient data on radiological chest examinations of medical organizations connected to the Unified Radiological Information Service of the Unified Medical Information and Analysis System of inpatient and outpatient medical organizations of Moscow and the Moscow region. Semantic analysis methods, expert rules and machine learning algorithms were used for processing the unstructured text reports. Results. The study has identified language patterns associated with important pathological conditions and “norm” class as well as developed regular expressions for these classes. A dictionary of radiological concepts and abbreviations (397 items) was compiled, followed by the development of an algorithm for correcting grammar mistakes in the protocols. In collaboration with the expert group, the rules of multilabel classification of the radiological examination protocols were created and their efficiency was tested. When solving the multilabel classification problem using only the expert rules, the percentage of exact matches equaled to 84%. Inasmuch as classifiers for conditions such as “infiltration/consolidation” and “blackout focus” were not effective, we have adjusted the models of machine learning. Conclusion. The best classification results were demonstrated by the recurrent neural network with the long-short term memory architecture ensuring sensitivity of 89% and 99% for “infiltration/consolidation” and “blackout focus” classes, respectively. This made it possible to statistically significantly (p=0.039) increase the total percentage of the exact matches up to 87%. Keywords: semantic analysis; machine learning; unstructured data; text analysis; NLP; language models
Corresponding author: Pavel A. Astanin, email:
Этот e-mail защищен от спам-ботов. Для его просмотра в вашем браузере должна быть включена поддержка Java-script
Введение Внедрение электронного документооборота (ЭДО) является ключевым звеном формирования единого цифрового контура системы здравоохранения [1]. Структурированные электронные медицинские документы (СЭМД) активно используются в работе медицинских информационных систем (МИС), однако большинство из них характеризуются низким уровнем формализации данных [2]. По оценкам П. А. Тучковой [3], доля неструктурированных и неформализованных данных в системе ЭДО медицинских организаций (МО) может составлять более 80%. Потребность в анализе неструктурированных медицинских данных присутствует во всех клинических областях [4–8], включая различные направления лучевой диагностики [9]. Несмотря на стремительное развитие средств визуализации медицинской информации, за последние годы протоколы лучевых исследований практически не подверглись изменениям не только со структурной, но и с содержательной стороны [10]. Большое разнообразие стилей протоколов, используемых специалистами лучевой диагностики, свидетельствует об отсутствии уникального и единого формата описания результатов исследований [11]. Важно отметить, что использование однозначной и согласованной терминологии служит основным правилом представления диагностических результатов исследований и должно изначально предусматриваться разработчиками шаблонов при их создании [12–14]. Основная сложность структурирования и формализации информации в данной области заключается в разнообразии анатомических структур, функциональных особенностей, методик исследования и особенностей работы отдельных медицинских организаций. Очевидно, что полноценное удовлетворение потребности системы здравоохранения в СЭМД потребует значительных трудозатрат и времени [15]. В настоящий момент для обработки неформализованных документов могут применяться алгоритмы семантического анализа, реализованные в виде комбинации экспертных решений и машинных методов [16]. Семантический анализ, в ходе которого производится обработка текстовых данных, считается одной из наиболее сложных и неизученных областей интеллектуального анализа данных [17]. С одной стороны, анализ медицинских текстов тесно связан с человеческим фактором, из чего следует наличие большого количества уникальных для предметной области терминов, опечаток, ошибок, аббревиатур и жаргонизмов [18]. С другой стороны, каждый язык имеет уникальную семантическую специфику [19], из-за которой опыт зарубежных коллег не может быть полноценно адаптирован и использован для решения задач анализа неструктурированной информации на иных языках [20]. Одной из задач семантического анализа медицинских текстов является создание инструментов для решения задач классификации с использованием математических алгоритмов и логических правил, обеспечивающих в дальнейшем поддержку принятия врачебных решений [21]. Классификация медицинских текстов предполагает их соотнесение с классом заболевания, с группой риска, с тяжестью состояния и иными категориями. Разметка текстовых протоколов рентгенологических заключений является необходимым этапом формирования набора данных для обучения интеллектуальных систем компьютерного зрения [22]. В свою очередь, актуальность разработки систем автоматической разметки медицинских текстов обусловлена потребностью в трудоемкой ручной разметке с привлечением клинических экспертов. Появление таких систем обеспечит ускорение процесса подготовки данных и обучения классификаторов изображений, а также позволит снизить количество ошибок, связанных с человеческим фактором, при диагностике наиболее значимых классов заболеваний [23]. Целью настоящего исследования является разработка системы автоматической разметки текстовых заключений в протоколах рентгенологических исследований органов грудной клетки на основе экспертных методов и методов машинного обучения. Материал и методы Исследование проводилось с декабря 2021 г. по июнь 2022 г. на базе Кафедры медицинской кибернетики и информатики ФГАОУ ВО «Российский национальный исследовательский медицинский университет имени Н. И. Пирогова» (РНИМУ им. Н. И. Пирогова) и Отдела медицинской информатики, радиомики и радиогеномики ГБУЗ «Научно-практический клинический центр диагностики и телемедицинских технологий» Департамента здравоохранения г. Москвы (ГБУЗ «НПКЦ ДиТ ДЗМ»). Объектом настоящего исследования являются диагностические данные о пациентах, проходивших рентгенологические исследования грудной клетки в подключенных к Единому радиологическому информационному сервису (ЕРИС) Единой медицинской информационно-аналитической системы (ЕМИАС) амбулаторных и стационарных МО Москвы и Московской области. Предметом исследования являются неструктурированные текстовые протоколы (с описательной частью и заключением от врачей-рентгенологов) рентгенологических исследований органов грудной клетки, распределенных на наиболее значимые с клинической точки зрения нозологические группы. Обучающая выборка получена из базы данных единой радиологической информационной системы (ЕРИС) и включает 4983 протокола рентгенологических исследований грудной клетки. В обучающей выборке 4384 (88,0%) образцам соответствует класс «норма», 42 (0,8%) – «плевральный выпот», 3 (0,1%) – «пневмоторакс», 108 (2,2%) – «очаг затемнения», 292 (5,8%) – «инфильтрация/консолидация», 4 (0,1%) – «диссеминация», 8 (0,2%) – «полость». Остальным 142 (2,8%) экземплярам соответствуют редко встречающиеся патологические изменения, объединенные в класс «другое». К таким изменениям относятся «кальцинаты», «ателектаз», «консолидированный перелом», «нарушение целостности кортикального слоя», «расширение тени средостения» и «кардиомегалия». Тестовая выборка включает 507 протоколов со следующим распределением классов: «норма» – 191 (37,7%) образец, «плевральный выпот» – 64 (12,6%), «пневмоторакс» – 26 (5,1%), «очаг затемнения» – 29 (5,7%), «инфильтрация/консолидация» – 85 (16,8%), «диссеминация» – 5 (1,0%), «полость» – 15 (3,0%), «другое» – 92 экземпляра (18,1%). Помимо этого, дополнительная выборка из 5000 протоколов без классовой разметки использовалась для вычисления векторных эмбеддингов (от англ. embedding – вложение) – тензорного отображения контекстной сочетаемости слов. Настоящее исследование включало в себя два основных блока: препроцессинг (подготовка) данных и их последующий анализ. На первом этапе препроцессинга осуществлялись стандартные процедуры обработки данных: удаление некачественных образцов и дубликатов с помощью регулярных выражений, а также устранение грамматических ошибок [24]. Далее вводились ограничения на минимальное количество экземпляров в классе. В рамках балансировки классов производилось использование алгоритмов субдискретизации – искусственного уменьшения размера подвыборок мажоритарных (превосходящих по объему) классов, передискретизации – искусственного увеличения размера подвыборок миноритарных (малочисленных) классов, а также аугментации – генерации новых текстов на основе исходных [25]. Важно отметить, что, ввиду отсутствия в свободном доступе словаря синонимов медицинских терминов, было принято решение использовать векторные эмбеддинги для замены некоторых слов. Последующие итерации препроцессинга данных включали работу непосредственно с текстом: перевод символов в нижний регистр, удаление знаков препинания, синонимов, «стоп-слов» – наиболее распространённых слов с низкой семантической ценностью (частиц, предлогов, союзов) [26]. В целях снижения размерности признакового пространства осуществлена лемматизация – приведение слов к единой нормальной форме с использованием библиотеки PyMorphy2. Данный морфологический анализатор позволяет производить быстрый поиск по словарю и получать список нормальных форм, если их может быть несколько. В случае, если слово отсутствует, алгоритмы библиотеки делают предположение о нормальной форме слова, основываясь на морфемном разборе. Итоговым результатом применения перечисленных этапов препроцессинга является преобразование текста в последовательность лаконичных синтаксических конструкций – токенов. После предобработки текстов наступал этап извлечения признаков и представления текста в числовом виде. В данном исследовании был использован подход, основанный на извлечении ограниченного количества слов с наибольшим значением TF-IDF (term frequency–inverse document frequency) меры. TF-IDF мера позволяет ранжировать слова по их семантической ценности в пределах всего корпуса (набора) документов и отбирать наиболее значимые слова из всего словаря. Благодаря применению TF-IDF были сформированы векторные представления текстов, которые в дальнейшем подавались на вход алгоритмам классификации. В случае использования TF-IDF представления текста целесообразно использование моделей машинного обучения, игнорирующих порядок следования токенов. К таким методам относятся Logistic Regression (логистическая регрессия), Support Vector Machine (метод опорных векторов), Random Forest (ансамбль деревьев решений), Extreme Gradient Boosting (градиентный бустинг), k-Nearest Neighbors (метод k-ближайших соседей). Разработка алгоритмов разметки неструктурированных текстов протоколов рентгенологических исследований осуществлялась на основе двух подходов: с использованием решающих правил и с использованием методов машинного обучения. Создание классификационных моделей на основе решающих правил осуществлялось экспертным путем с использованием регулярных выражений. Разработка моделей на основе машинного обучения включала использование следующих алгоритмов: ансамбль деревьев решений, логистическая регрессия, полносвязная нейронная сеть прямого распространения с тремя скрытыми слоями, нейронная сеть с архитектурой LSTM. Оценка качества каждой модели основана на вычислении стандартных метрик бинарной классификации: точности, чувствительности, специфичности и F-меры для каждого класса. Для интегральной оценки качества работы алгоритма в задаче многозначной классификации, подразумевающей возможность наличия у пациента сразу нескольких патологических состояний, использованы метрики точности и отношения точных совпадений – доли экземпляров, для которых алгоритм не допустил ошибки ни в одном из классов. Оценка доверительных интервалов (ДИ) осуществлялась методом Уилсона с поправкой на непрерывность. В отличие от симметричного нормального интервала аппроксимации, интервал оценки Уилсона является асимметричным и не страдает от проблем преодоления границ и интервалов нулевой ширины, которые затрагивают нормальный интервал. Данный метод оценки ДИ можно безопасно использовать для малых выборок, несбалансированных классов и искаженных наблюдений. Для технической реализации всех этапов настоящего исследования применялись средства языка программирования Python 3.9 и среда разработки Google Colaboratory. Для обучения и тестирования моделей машинного обучения использовались библиотеки Scikit-learn, Keras, TensorFlow, PyTorch, а также гибридный аппаратный ускоритель на виртуальной машине, выделенной Google Colaboratory. Результаты В ходе очистки и предобработки полученные данные были очищены от пропусков (их оказалось всего 2), после чего произведено удаление незначимых лексем (адресов, имён, цифр, знаков препинания, обозначений доз облучения, всех слов с корнем «рентген» и вариантами его сокращений). Все буквы приведены к нижнему регистру, все пробельные символы (множественные пробелы, переносы строки, переносы каретки) заменены на одиночный пробел. Буквы «ё» заменены на «е». Изначально протоколы рентгенологических исследований органов грудной клетки содержали большое количество орфографических ошибок, что было следствием их рукописного ввода. Для правильной работы распознающих алгоритмов документы подвергнуты коррекции с использованием редакционного расстояния Левенштайна – наиболее распространённого метода оценки лексической схожести текстов [27]. В качестве эталонного словаря для данного алгоритма выбран словарь Open Office, встроенный во многие текстовые редакторы. Однако при его использовании большинство медицинских терминов, сокращений, профессиональных жаргонизмов и аббревиатур исправлялось неправильно. Поэтому было принято решение дополнить словарь вручную путем включения в него слов, нераспознанных алгоритмом. Из 4983 протоколов было извлечено 479 слов, характерных для рентгенологических протоколов и отсутствующих в обычном словаре русского языка. После пополнения словаря алгоритм позволил корректно исправить ошибки правописания и получить готовые к дальнейшему использованию тексты. Важно отметить, что для обучающей выборки был характерен выраженный дисбаланс классов (даже на уровне «норма-патология»). Поскольку большинство заключений о норме являются однотипными, реализована субдискретизация класса «норма» посредством удаления дубликатов, что позволило снизить количество экземпляров до 862. Для обучения моделей, игнорирующих порядок слов в тексте, классы были уравнены алгоритмом SMOTE, который предполагает генерацию новых объектов с использованием данных о существующих образцах миноритарного класса [28]. Для обучения моделей, учитывающих порядок входных токенов, классы были аугментированы при помощи векторных эмбеддингов. Идея данного подхода состояла в вычислении косинусной меры схожести для некоторых слов в тексте и их последующей замене на ближайших соседей. Аугментация позволила увеличить объем подвыборок некоторых классов почти в 2 раза: класс «очаг затемнения» – с 108 до 206, а класс «инфильтрация/консолидация» – с 292 до 480 экземпляров (таблица 1). Таблица 1 Пример аугментации токенизированного текста с использованием векторного эмбеддинга
На первом этапе разработки алгоритма классификации неструктурированных текстов рентгенологических протоколов были созданы логические решатели, основанные на использовании экспертных правил. Правила разрабатывались совместно с врачами-рентгенологами экспертной группы ГБУЗ «НПКЦ ДиТ ДЗМ» для каждого класса. Всего было создано 58 правил, описанных с использованием 86 регулярных выражений: для «нормы» – 22, для «плеврального выпота» – 4, для «пневмоторакса» – 2, для «очага затемнения» – 21, для «инфильтрации» – 19, для «диссеминации» – 3, для «полости» – 7, для класса «другое» – 8. На рисунке 1 представлен фрагмент решателя для выявления класса «Очаг затемнения».
Для каждого состояния была произведена оценка качества бинарной классификации, результаты которой представлены в таблице 2. Таблица 2 Оценка качества моделей, основанных на правилах
Из данных таблицы 2 следует, что наилучшие результаты классификации показали модели, предназначенные для выявления пневмоторакса, диссеминации и полости. Относительно наихудшие результаты показали модели бинарной классификации для выявления инфильтрации и очага затемнения. При оценке качества многозначной классификации (для всех моделей в целом) доля точных совпадений (MER) составила 84 [81; 87] %. В целях улучшения качества работы алгоритма классификации неструктурированных текстов протоколов рентгенологических исследований грудной клетки на втором этапе было принято решение применить методы машинного обучения для классов «очаг затемнения» и «инфильтрация/консолидация». Результаты оценки качества классификации для моделей бинарной классификации данных состояний представлены в таблицах 3 и 4, соответственно. Таблица 3 Сравнительная оценка качества бинарной классификации для класса «очаг затемнения» с использованием различных алгоритмов машинного обучения
Данные, продемонстрированные в таблице 3, позволяют сделать вывод о том, что наиболее высокое качество классификации для состояния «очаг затемнения» продемонстрировала нейронная сеть LSTM. Чувствительность, являющаяся наиболее информативной метрикой при большом числе классов, для данной модели составила 85 [70; 94] % на тестовой выборке против 71 [54; 83] % для модели, основанной на правилах. Таблица 4 Сравнительная оценка качества бинарной классификации для класса «инфильтрация/консолидация» с использованием различных алгоритмов машинного обучения
При построении моделей для обнаружения класса «инфильтрация/консолидация» наилучшие результаты вновь показала LSTM. Чувствительность модели на тестовой выборке составила 89 [80; 94] % против 84 [75; 90] % для модели, основанной на правилах. На основании полученных оценок качества классификаторов принято решение использовать модели LSTM для выявления классов «инфильтрация/консолидация» и «очаг затемнения», а остальные классы выделять моделями, основанными на правилах. Схема работы итогового алгоритма представлена на рисунке 2 и включает следующие шаги: очистка текстов, коррекция грамматических ошибок, лемматизация, вычисление векторных эмбеддингов, выделение классов «плевральный выпот», «пневмоторакс», «полость», «диссеминация», «другое» моделью, основанной на экспертных правилах, выделение классов «очаг затемнения» и «инфильтрация» нейросетью LSTM. Если патологий нет, протоколу присваивается значение метки нормы, равное «1».
В ходе оценки работы разработанной системы автоматической разметки текстов в задаче многозначной классификации процент точных совпадений составил 87 [84; 90] % против 84 [81; 87] % для аналогичного алгоритма, основанного только на правилах. Прирост точности алгоритма оказался статистически значимым (p=0,039). Обсуждение Проведённое исследование продемонстрировало основные этапы работ по созданию алгоритма классификации неструктурированных текстов протоколов рентгенологических исследований грудной клетки. В процессе исследования применялись не только экспертные решения, но и модели машинного обучения. Были выявлены языковые паттерны, свойственные представителям наиболее важных состояний, и созданы регулярные выражения, соответствующие им. В процессе предобработки текстов составлен словарь рентгенологических терминов и сокращений (397 слов), а также разработан алгоритм коррекции грамматических ошибок в протоколах. Совместно с экспертами сформированы правила для многозначной классификации протоколов рентгенологического исследования и оценена их эффективность. Для большинства состояний качество бинарной классификации оказалось высоким, а процент точных совпадений по всем моделям в совокупности составил 84 [81; 87] % В связи с недостаточной эффективностью решателей для таких состояний, как «инфильтрация/консолидация» и «очаг затемнения», проведена настройка следующих моделей машинного обучения: логистическая регрессия, ансамбль деревьев решений (Random Forest), полносвязная нейронная сеть прямого распространения и рекуррентная нейронная сеть (LSTM). Наилучшие результаты классификации показала LSTM, позволившая достичь значений показателя чувствительности в 89 [80; 94] % и 99 [97; 99] %, соответственно, для «инфильтрации/консолидации» и «очага затемнения», что позволило статистически значимо повысить общий процент точных совпадений до 87 [84; 90] %. Важно отметить, что первоначальный выбор экспертных правил был связан с недостаточным объемом обучающей выборки и выраженным дисбалансом классов. Использование моделей машинного обучения при перечисленных ранее несовершенствах обучающего набора данных позволило улучшить работу итогового алгоритма за счет повышения качества классификации двух патологических состояний. Учитывая, что использование данных алгоритмов позволило значительно упростить и автоматизировать процесс разработки классификаторов, их преимущество не вызывает сомнений. Тем не менее поиск эффективных способов улучшения качества анализа неструктурированных медицинских текстов остается актуальным и требует дальнейшего изучения. Заключение Разработанный аналитический алгоритм реализован в виде программного кода и преобразован в сервис с использованием специальной платформы Postman API. В ходе его работы реализуются процессы предобработки текстов и воспроизводятся алгоритмы классификации, основанные на построенных ранее экспертных правилах и машинных методах. На различных этапах своей работы указанный сервис обращается к словарю рентгенологических терминов, векторным эмбеддингам и сохраненным весам нейронных сетей LSTM. Все вышеперечисленные ресурсы образуют систему автоматической разметки текстов рентгенологических исследований грудной клетки. В настоящее время данный программный продукт находится на этапе внедрения в работу Отдела медицинской информатики, радиомики и радиогеномики ГБУЗ «НПКЦ ДиТ ДЗМ». К перспективам дальнейших исследований в данной области следует отнести создание инструментов анализа неструктурированных данных на основе языковых моделей. Существующие языковые модели (BERT) используются в англоязычных странах для работы с медицинскими документами и показывают результаты, превосходящие по эффективности экспертные правила и современные архитектуры нейронных сетей [29]. Создание языковых моделей на русском языке станет большим шагом в развитии медицинской информатики в России [30] и позволит повысить качество анализа неструктурированных медицинских данных. Библиография
References
Просмотров: 4413
Добавить комментарий
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Последнее обновление ( 06.04.2023 г. ) |
« Пред. | След. » |
---|