ЦЕНТРЫ ЗДОРОВЬЯ: ТЕХНОЛОГИЯ ОБРАБОТКИ БОЛЬШИХ ОБЪЁМОВ ДАННЫХ ПРОФИЛАКТИЧЕСКОГО СКРИНИНГА |
22.12.2015 г. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Руднев С.Г.1,2, Николаев Д.В.1,3, Коростылёв К.А.1,3, Старунова О.А.1,3, Щелыкалина С.П.1,4, Ерюкова Т.А.1,3, Колесников В.А.1,3, Стародубов В.И.1
HEALTH CENTRES: TECHNOLOGY TO PROCESS MASS DATA ON PREVENTIVE SCREENING Контактная информация: Руднев Сергей Геннадьевич, e-mail: Этот e-mail защищен от спам-ботов. Для его просмотра в вашем браузере должна быть включена поддержка Java-script Contacts: Sergey G. Rudnev, e-mail: Этот e-mail защищен от спам-ботов. Для его просмотра в вашем браузере должна быть включена поддержка Java-script Статья подготовлена в рамках проекта Российского научного фонда «Разработка методологии популяционного скрининга физического развития, состояния здоровья и питания населения России. Оценка эпидемиологических рисков» (грант №14-15-01085). This article was prepared under the framework of the Russian Science Foundation project ‘Development of methodology for population screening of physical growth and development, state of health and nutrition. Assessment of epidemiological risks’ (grant no. 14-15-01085). Резюме. Актуальность темы. Национальная сеть центров здоровья представляет собой сложную распределённую систему, которая в постоянном режиме, начиная с 2010 года, генерирует массовые данные профилактического скрининга. Ручной анализ качества и достоверности данных, собираемых в центрах здоровья, не представляется возможным, а отчётная документация центров в ряде случаев может не отражать реального положения дел. Необходима разработка автоматизированных алгоритмов контроля качества и повышения достоверности данных профилактического скрининга. Цель исследования – реализация элементов технологии больших данных для анализа результатов профилактического скрининга в центрах здоровья на примере методики биоимпедансометрии, ретроспективная оценка качества и достоверности данных, характеристика возможностей их использования для эпидемиологического мониторинга. Материал и методы. Объединяли данные биоимпедансометрии из Федерального информационного ресурса центров здоровья с данными центров здоровья за 2010-2012 гг., полученными по письму Минздрава России №14-1/10/2-3200 от 24 октября 2012 года, а также с данными за 2013-2015 гг., полученными по письму ЦНИИОИЗ Минздрава России №7-5/434 от 2 июля 2015 года. Общее количество записей с результатами измерений составило 2,35 млн. Данные были получены из 320 центров здоровья, относящихся к 62 субъектам Российской Федерации и восьми федеральным округам. Результаты. В половине центров здоровья качество применения методики биоимпедансометрии было 93,5% или выше. Вместе с тем, суммарная доля некорректных данных постоянно росла, и в 2014-м году составляла 28,1%. В структуре некорректных данных преобладали подделки (50,6%) и методические погрешности (48,5%). Количество записей в базе после удаления некорректных данных и результатов повторных измерений составило 1,64 млн. На основе расчёта параметров распределений значений индекса массы тела с использованием пакета программ GAMLSS получены оценки распространённости избыточной массы тела, ожирения и истощения по критериям ВОЗ среди обследованных лиц мужского пола в зависимости от возраста. Стандартизованные оценки распространённости ожирения у мальчиков 5-17 лет составили 11,0%, а у мужчин 18-85 лет – 17,7%. Обсуждение. Применение технологии больших данных позволило оценить качество и выявить структуру некорректных данных биоимпедансометрии. Это даёт возможность принятия управляющих решений с целью коррекции выявленных нарушений. Результаты сравнения с независимыми антропометрическими данными свидетельствуют о репрезентативности данных центров здоровья для детей и подростков. Выводы.
Ключевые слова. Центры здоровья; Федеральный информационный ресурс центров здоровья; профилактический скрининг; большие данные; поиск и удаление подделок; сжатие данных; стандартизация данных. Abstract. Significance. The national network of Health Centers is a complex distributed system that continuously, since 2010, generates mass data on preventive screening. Manual analysis of quality and reliability of the data collected in Health Centers is not possible, while official reporting of Health Centers may not, in some cases, reflect the real situation. So it is necessary to develop automated algorithms for quality control and enhancement of reliability of preventive screening data. The purpose of the study was to implement elements of the big data technology for analyzing results of preventive screening in Health Centers exemplified by the bioimpedance measurement data, retrospectively evaluate quality and reliability of data, and explore their applicability for epidemiological monitoring. Materials and methods. Bioimpedance data from the Federal Information Resource of Health Centers database was combined with the submitted data of bioimpedance measurements according to the letter by the Ministry of Health of the Russian Federation #14-1/10/2-3200 as of October 24, 2012, as well as with the submitted data according to the letter by the Federal Research Institute for Health Organization and Informatics of the Russian Health Ministry #7-5/434 as of July 2, 2015. The initial number of records in the bioimpedance database was 2.35 million. The data were obtained from 320 Health Centers in 62 Federal Subjects and eight Federal Districts of the Russian Federation. Results. In half of the Health Centers the quality of bioimpedance data was 93.5% or higher. However, the proportion of incorrect data grew steadily reaching 28.1% in 2014. The incorrect data consisted mainly of frauds (50.6%) and measurement errors (48.5%). The number of records in the database after removal of incorrect data and repeated measurements equaled to 1.64 million. Based on calculated parameters of the distributions of body mass index using the software package GAMLSS, the prevalence of overweight, obesity and wasting in the study group was estimated among males according to the WHO criteria. The age-standardized obesity prevalence in males was 11.0% at the age of 5-17 years, and 17.7% at the age of 18-85 years. Discussion. The use of big data technology allowed us to evaluate quality of data and to identify incorrect data of bioimpedance measurements. This offers an opportunity for taking managerial decisions to correct the identified violations. Results of the comparison with independent anthropometric data show representativeness of the Health Centers’ data for children and adolescents. Conclusions. 1) Based on bioimpedance data, our mass data analysis showed that quality and accuracy of the raw data on preventive screening in Health Centers was gradually decreasing. This suggests ineffectiveness of control measures. 2) Effective quality management of Health Centers’ activities is possible through the use of big data technology. 3) Data of the Federal Information Resource of Health Centers may be suitable for epidemiological monitoring upon application of the selection criteria. Keywords. Health Centers; Federal Information Resource of Health Centers; preventive screening; big data; frauds detection and removal; data compression; data standardization. Введение Ведущей причиной преждевременной смертности населения России являются хронические неинфекционные заболевания [14], а основная роль в снижении смертности отводится профилактике [2]. С целью укрепления и развития профилактического направления медицины в 2009-2010 гг. в России была создана национальная сеть центров здоровья, и одновременно разработано специализированное программное обеспечение центров здоровья для автоматизации сбора и обработки данных [3]. В настоящее время Федеральный информационный ресурс центров здоровья (ФИР ЦЗ) является единственным в России источником массовых первичных данных профилактического скрининга. По состоянию на май 2015 года, ФИР ЦЗ содержал результаты комплексного обследования 3,72 млн человек [12]. Как уже отмечалось [12], существующий порядок финансирования центров здоровья из расчёта планируемой посещаемости противоречит интересам качества собираемых данных: в условиях недостаточного потока пациентов это может приводить к попыткам фальсификации данных и, как следствие, к несравнимости данных из разных центров здоровья и регионов. Наличие неконтролируемых объёмов некорректных данных косвенно подтверждается отсутствием публикаций по изучению взаимосвязей результатов проводимого скрининга с данными заболеваемости и смертности, несмотря на обилие информации из центров здоровья о распространённости факторов риска (см., например, [1,5,9]). Отличительным аспектом организации работы центров здоровья является комплексное применение инструментальных диагностических методов, таких как антропометрия, спирометрия, дисперсионное картирование сердца, ангиологический скрининг, пульсоксиметрия, биохимический анализ крови и некоторые другие [9]. Грамотное их использование требует наличия определённых навыков. Недостаточная обученность персонала (например, в условиях высокой ротации кадров) может служить дополнительным источником некорректных данных. Ручной анализ достоверности и качества данных, собираемых в центрах здоровья, при существующих объёмах информации не представляется возможным. В таких ситуациях оправдано применение методов машинного обучения, позволяющих «во многих местах, где раньше требовалась работа экспертов, обойтись без них» [11]. Значительный объём и разнообразие информации, генерируемой в центрах здоровья, являются признаками больших данных. Под большими данными понимается набор методов, алгоритмов и технологий обработки больших и сверхбольших постоянно растущих массивов структурированных и неструктурированных данных, требующих высокоскоростной обработки, для получения воспринимаемых результатов [25]. К методам анализа, применимым к большим данным, относят машинное обучение, имитационное моделирование, распознавание образов, пространственный, статистический анализ и визуализацию данных, прогнозную аналитику и другие. Базовыми возможностями технологий больших данных в различных областях приложений являются повышение эффективности индустрий и снижение затрат, выявление недостоверных данных и противодействие мошенничеству, упрощение описания, ускорение обработки данных, и другие [4,7,11]. Одним из методов диагностики состояния пациентов в центрах здоровья является биоимпедансный анализ (биоимпедансометрия). На основе измерений роста, веса и электрического сопротивления (импеданса) тела биоимпедансный анализ позволяет оценить состояние белкового, жирового, водного и основного обменов, выявить риски заболеваний [8,19]. Сегодня биоимпедансометрия – это наиболее распространённый метод скрининговой оценки состава тела и нутритивного статуса. Метод нашёл применение в популяционных исследованиях здоровья населения различных стран мира, таких как Бразилия [29], Великобритания [18,26], страны Евросоюза [28], Китай [15], США [22] и Южная Корея [24]. Формулы для биоимпедансной оценки состава тела верифицированы с использованием эталонных методов (см., например, [16,20,23]). Цель исследования: реализация элементов технологии больших данных для анализа результатов профилактического скрининга в центрах здоровья на примере методики биоимпедансометрии, ретроспективная оценка достоверности и качества данных, характеристика возможностей их использования для эпидемиологического мониторинга. Материал и методы Для проведения исследования были объединены три источника данных биоимпедансных измерений в центрах здоровья: ФИР ЦЗ [12], информация за 2010-2012 гг., полученная по письму Минздрава России №14-1/10/2-3200 от 24 октября 2012 года [10], а также информация за 2013-2015 гг., полученная по письму ЦНИИОИЗ МЗ РФ №7-5/434 от 2 июля 2015 года. Данные ФИР ЦЗ представляли собой базу sql. Данные биоимпедансных измерений за 2010-2012 и 2013-2015 гг. имели вид таблиц csv, полученных из структурированных исходных данных в форматах разработчика fmd и fmd2 с использованием программы-конвертера (автор В.А. Колесников). Для хранения и обработки данных использовалась серверная система R-IT DataMill с объёмом дисковой памяти 24 Тб и установленными ОС Microsoft Windows Server Standard 2012R2 и СУБД Microsoft SQL Svr Standard 2014. Для обеспечения сопоставимости данных при использовании единых критериев отбора рассматривались только результаты измерений одним типом биоимпедансного оборудования: анализаторами состава тела АВС-01 «Медасс» (АО НТЦ Медасс, г. Москва), которыми оснащены примерно половина центров здоровья. В процессе объединения данных удаляли дубликаты измерений путём попарного сравнения баз при одновременном совпадении пола, даты рождения, даты обследования пациента, а также значений активного (R50) и реактивного (Xc50) сопротивлений с точностью до одного знака после запятой. В результате удаления дубликатов общее количество записей с результатами измерений анализаторами АВС-01 «Медасс» за 2010-2015 годы составило 2,35 млн. Объединённые данные хранились в денормализованном виде в формате csv. Информация была получена из 320 центров здоровья, относящихся к 62 субъектам Российской Федерации и восьми федеральным округам. (Данные по Крымскому федеральному округу временно отсутствовали.) На рис. 1 показано распределение данных по различным источникам. Можно видеть, что объединение информации, содержащейся в ФИР ЦЗ, с данными, полученными из центров здоровья непосредственно, привело к увеличению объёма выборки в 2,5 раза. (Анализ современного состояния ФИР ЦЗ и возможных путей совершенствования системы сбора данных содержится в работе [12].) Рост пациентов в центрах здоровья определяли электронным или обычным ростомером с дискретностью измерений 1 мм, а массу тела (МТ) – на электронных или механических весах с дискретностью измерений 100 грамм. Индекс массы тела (ИМТ) вычисляли как отношение массы тела к квадрату длины тела (кг/м2). Биоимпедансное обследование проводили по стандартной схеме в положении пациентов лёжа на спине с одноразовыми биоадгезивными электродами на запястье и голеностопе [8]. Измеряли значения активного (R50) и реактивного (Xc50) сопротивлений при частоте тока 50 кГц. Фазовый угол импеданса рассчитывали в градусах как арктангенс отношения реактивного и активного сопротивлений, умноженный на 180°/π. Тощую массу тела (ТМ) детей и подростков вычисляли по формуле Л. Хауткупер [20], а взрослых людей – через определение объёма воды в организме (ОВО) по формулам Р. Кушнера и Д. Шоллера [23] с учётом предположения о постоянстве относительной гидратации тощей массы. Жировую массу тела (ЖМТ) вычисляли как разность между МТ и ТМ, а процентное содержание жира в массе тела (%ЖМТ) – как (ЖМТ/МТ)×100%. К полученным данным применяли элементы технологии больших данных, включая формирование критериев отбора, поиск и удаление некорректных данных, сжатие, анализ и визуализацию, стандартизацию данных. Рассматривали следующие типы некорректных данных биоимпедансометрии: ошибки ввода данных, методические погрешности, фальсификаты данных (табл. 1). Таблица 1 Классификация типов некорректных данных биоимпедансометрии в центрах здоровья и критерии отбора
Приведённые в табл. 1 критерии исключения близки к использованным в работе [10]. Основные изменения (пп. 2.6 и 3.3) были связаны с организацией визуального контроля формы распределений значений R50 и Xc50 для центров здоровья, представленных в ФИР ЦЗ и в базе 2010-2012 гг. В процессе выявления некорректных данных оказалось, что некоторые записи результатов измерений относились и ко второму, и к третьему типу некорректных данных одновременно. В связи с этим далее методической погрешностью считали те ошибки 2 типа, которые не являлись ошибками 3 типа (подделками). Общее количество некорректных данных составило 0,5 млн записей. Оценивали структуру некорректных данных в зависимости от пола, возраста, географии обследованных и года обследования. Помимо удаления некорректных данных для имитации поперечного дизайна исследования в каждой из объединяемых баз были удалены результаты повторных измерений пациента за исключением последнего по времени. Доля повторных измерений в базах 2010-2012 и 2013-2015 гг. составила 6,5% и 6,3% соответственно, а в базе ФИР ЦЗ – 14,5%. Различия были связаны с тем, что в первых двух источниках информации присутствовали более короткие временные ряды данных по сравнению с базой ФИР ЦЗ. После удаления некорректных данных и результатов повторных измерений итоговый размер выборки составил 1,64 млн человек, из них 1,09 млн лиц женского и 0,55 млн – мужского пола. Количество удалённых записей составило 30,3% от исходного размера выборки. Этап сжатия данных иллюстрировали построением центильных таблиц для ИМТ на основе моделей GAMLSS [13,27]. Расчёты проводили в среде MS Excel с установленным расширением RExcel с использованием макроса на языке R (автор О.А. Старунова), осуществляющего вызов процедур из пакета GAMLSS. Для характеристики репрезентативности данных полученные центильные таблицы сопоставляли с результатами массового обследования детей и подростков в школах Ростовской области. Построенные центильные таблицы использовали для оценки распространённости избыточной массы тела, ожирения и истощения среди обследованных в центрах здоровья лиц мужского пола по критериям ВОЗ. Данные стандартизовали с использованием демографической пирамиды России. Результаты В табл. 2 показано распределение количества исходных записей с результатами биоимпедансометрии (n=2 350 079) по федеральным округам и годам обследования. Наибольшее количество данных (48,5%) было получено из Центрального федерального округа, при этом данные за 2015 год оказались представлены мало. Далее следовали Приволжский (19,7%), Сибирский (9,2%) и Северо-Западный (8,1%) федеральные округа. Таблица 2 Распределение исходного количества данных биоимпедансометрии по федеральным округам России и годам обследования
В половине из 305 диагностируемых центров здоровья с количеством измерений не менее чем 100 качество данных биоимпедансометрии было высоким: доля корректных данных составила 93,5% или выше (рис. 2 слева). Вместе с тем, наблюдался кратный рост процентной доли некорректных данных: с 11,2% в 2010-м до 28,1% в 2014-м году (увеличение в 2,5 раза), см. рис. 2 справа. Рис. 2. Слева – качество данных биоимпедансометрии в центрах здоровья, справа – динамика процентной доли некорректных данных по федеральным округам Количество некорректных данных за 2010-2015 гг. составило 0,5 млн, или 21,3% от исходного количества записей (табл. 3). В структуре некорректных данных преобладали подделки (10,8% от общего количества записей) и методические погрешности (10,3%). Доля обнаруженных ошибок ввода данных была минимальной (0,2%). Таблица 3 Структура некорректных данных биоимпедансометрии в центрах здоровья
Доля методических ошибок за рассматриваемый период выросла в 1,9 раза: с 10% до 18,8%. В 2015-м году максимальная доля таких ошибок определялась в Южном (47,7%), Северо-Западном (28,8%) и Сибирском (21,2%) федеральных округах (рис. 3 слева). Резко увеличилась процентная доля подделок: с 1,0% в 2010-м до 15,9% в 2014-м году за счёт ухудшения показателей Центрального и Дальневосточного федеральных округов. Наблюдаемый низкий процент подделок в Центральном федеральном округе и России в целом в 2015-м году объяснялся отсутствием данных по Москве, где за предшествующий период процентная доля фальсификатов постоянно росла, и в 2014-м году составила 38,2% от общего количества представленных данных. Рис. 3. Динамика процентной доли некорректных данных биоимпедансометрии в центрах здоровья по федеральным округам: слева – методические ошибки, справа – подделки
Доля некорректных данных для детей и подростков была выше, чем для взрослых людей (рис. 4 слева). В равной степени это объяснялось увеличением доли фальсификатов и методических погрешностей (данные не показаны). Последнее может отражать менее внимательное отношение персонала центров здоровья к соблюдению методики измерений в условиях обследования больших организованных групп (школьных коллективов). У взрослых людей во всех возрастных группах доля некорректных данных для женщин была меньше, чем для мужчин (в среднем 18% и 21%). Вероятно, это связано с более высокой мотивацией женской части популяции к получению объективной информации о своём здоровье. Минимальная доля ошибок (16-17%) наблюдалась в подгруппе женщин 55-65 лет, которая характеризовалась наибольшей распространённостью ожирения и высоким сердечно-сосудистым риском. Рис. 5. Процентные доли методических ошибок (слева) и подделок (справа) для различных центров здоровья в зависимости от общего числа измерений. Справа от пунктирных линий показаны центры здоровья с количеством некорректных данных свыше 1000 и 5000 соответственно На рис. 5 слева показана диаграмма рассеяния процентной доли методических ошибок, допущенных при проведении биоимпедансного обследования в центрах здоровья, в зависимости от количества измерений. Точки на диаграмме соответствуют отдельным центрам здоровья. В 26 из 305 центров здоровья не менее чем каждое второе измерение было выполнено с ошибкой, а в 57 (18,6% центров) доля ошибок была выше 20%. В 22-х центрах здоровья более 50% записей результатов измерений оказались подделками (рис. 5 справа). В 14 из них наблюдалась массовая фальсификация данных: свыше 50% подделок при общем количестве записей от 10 тыс. до 46,2 тыс. Справа от красных пунктирных линий на рис. 5 показаны центры здоровья с количеством некорректных данных свыше 1000 и 5000 соответственно. На рис. 6 и 7 представлено распределение по субъектам Российской Федерации абсолютного и относительного (в процентах от численности населения региона) количества обследованных по методике биоимпедансометрии в центрах здоровья после удаления некорректных данных и результатов повторных измерений, а в табл. 4 показано распределение данных по регионам и годам обследования. Рис. 6. Количество обследованных по методике биоимпедансометрии в центрах здоровья с использованием анализаторов АВС-01 «Медасс» в различных субъектах Российской Федерации (после удаления некорректных данных и результатов повторных измерений)
Таблица 4 Распределение количества обследованных анализаторами АВС-01 «Медасс» в центрах здоровья после удаления некорректных данных и результатов повторных измерений по регионам и годам обследования
Следующим этапом реализации технологии больших данных, после применения критериев отбора, является сжатие данных с целью повышения их доступности для получения содержательных выводов. Традиционным способом сжатия данных при определении популяционных характеристик физического развития, особенностей распределений морфологических и физиологических параметров является построение центильных таблиц на основе LMS-метода или его модификаций [17,21]. Для расчёта центильных таблиц применяется различное программное обеспечение, в том числе реализованное в пакете программ R на основе моделей GAMLSS [13,27]. В качестве примера использования моделей GAMLSS в табл. 5 приведён фрагмент результатов таких расчётов: сглаженные значения параметров BCT-распределений и центилей ИМТ для детей и подростков 5-17 лет мужского пола, обследованных в центрах здоровья по методике биоимпедансометрии в 2010-2015 году. Таблица 5 Медиана (M), коэффициент вариации (S), асимметрия (L), эксцесс (T) и центили ИМТ для детей и подростков 5-17 лет, мальчики. Данные биоимпедансного обследования в центрах здоровья, 2010-2015 гг.
Сравнение центильных кривых на рис. 8 показывает, что распределения значений ИМТ у детей и подростков 7-17 лет, прошедших биоимпедансное обследование в центрах здоровья в 2010-2015 году (n=440 988), были близки к таковым в группе детей и подростков, массово обследованных в школах Ростовской области [6]. Это свидетельствует о перспективности использования данных профилактического скрининга, получаемых в центрах здоровья (после применения критериев отбора) в качестве референтных данных для российских детей и подростков. Вместе с тем, видны отличия отечественных данных от референтных данных ВОЗ и IOTF, наиболее выраженные у мальчиков (см. также [6,10]), что указывает на актуальность разработки и внедрения в практику здравоохранения национальных стандартов физического развития. Оценки параметров распределений значений признаков можно использовать для расчёта распространённости нарушений нутритивного статуса и рисков заболеваний по существующим критериям. Для этого достаточно преобразовать пороговые критерии диагностики в значения центилей относительно референтной группы центров здоровья соответствующего пола и возраста [10]. Рис. 9. Распространённость избыточной массы тела, ожирения и истощения среди обследованных в 2010-2015 гг. в центрах здоровья лиц мужского пола 5-85 лет по критериям ВОЗ в зависимости от возраста (n=549026) На рис. 9 показаны оценки распространённости избыточной массы тела, ожирения и истощения в зависимости от возраста по критериям ВОЗ среди лиц мужского пола, обследованных в центрах здоровья по методике биоимпедансометрии в 2010-2015 гг. Распространённость ожирения была минимальной в возрасте 19 лет (4,1%), и максимальной в возрасте 63 лет (27,9%). Отмечалась значительная распространённость ожирения среди детей 7-10 лет (14-15%). Истощение среди мужчин практически не наблюдалось, но было выявлено у детей и подростков (рис. 9 справа). Тяжёлую форму истощения имели 0,4% обследованных мальчиков. Стандартизация применяется в популяционных исследованиях для обеспечения сравнимости данных. Вариантом стандартизации при объединении возрастных групп является использование демографической пирамиды – возрастных распределений численности мужского и женского населения. При использовании усреднённой демографической пирамиды России за 2010-2014 гг., стандартизованные значения распространённости избыточной массы тела и ожирения по критериям ВОЗ среди мальчиков 5-17 лет составили 30,2% и 11,0% соответственно, а среди мужчин 18-85 лет – 56,9% и 17,7% соответственно. Обсуждение Национальная сеть центров здоровья является важным элементом системы медицинской профилактики, а Федеральный информационный ресурс центров здоровья служит единственным источником массовых данных профилактического скрининга в России. Ручной анализ качества и достоверности таких данных ввиду большого объёма информации невозможен, а периодические проверки отчётной документации центров со стороны контролирующих организаций оказываются дорогостоящими и малоэффективными. В работе реализованы элементы технологии больших данных для анализа результатов профилактического скрининга в центрах здоровья на примере методики биоимпедансометрии. Применение технологии больших данных на этапе фильтрации данных выявило кратный рост процентной доли некорректных данных биоимпедансометрии (с 11,2% в 2010-м до 28,1% в 2014 году) и высокий уровень неоднородности указанного показателя в зависимости от центра здоровья, региона и года обследования. Количество обнаруженных некорректных данных составило 499 474 записей из 2 350 079. Некорректные данные практически в равных долях представляли собой подделки (50,6%) или методические ошибки (48,5%). В центрах здоровья с большим количеством сфальсифицированных данных целесообразно провести анализ обоснованности бюджетных трат и соответствия реального потока пациентов заявленным показателям. Руководителям ЛПУ тех центров здоровья, где доля методических погрешностей при проведении биоимпедансометрии достаточно велика, может быть рекомендовано принятие мер для обучения персонала методике обследования. Региональные руководители здравоохранения и организаторы обучающих семинаров могут также использовать информацию такого рода для целевого обучения специалистов центров здоровья с последующим объективным контролем качества. Представляет интерес анализ структуры некорректных данных для других типов биоимпедансного оборудования и методов диагностики, используемых в центрах здоровья. Процедура сжатия данных биоимпедансометрии путём расчёта параметров распределений значений признаков в зависимости от возраста и пола позволяет, экономя память и время компьютера, оценивать распространённость нарушений нутритивного статуса и рисков заболеваний. Коэффициент сжатия данных при построении центильных таблиц составил порядка 5000. В качестве примера сжатых данных приведён фрагмент центильной таблицы для ИМТ у мальчиков. О репрезентативности полученных данных свидетельствуют результаты сравнения с данными скринингового обследования 81,8 тыс. детей 7-17 лет в школах Ростовской области [6], что объясняется сравнительно массовым характером обследования детей в центрах здоровья. Вопрос о возможности использования информации из центров здоровья для эпидемиологического мониторинга взрослого трудоспособного населения в настоящее время неясен и требует отдельного изучения, в том числе ввиду сравнительно низкой посещаемости центров данной категорией граждан. Одним из возможных решений является включение центров здоровья в программу первого этапа диспансеризации взрослого населения [12]. Построенные центильные таблицы для ИМТ использованы для расчёта стандартизованных оценок распространённости избыточной массы тела и ожирения в отдельных возрастных группах. Сравнительно высокие показатели для мальчиков 5-17 лет (30,2% и 11,0% соответственно) объясняются высоким процентом московских детей в рассматриваемой выборке. Уточнение оценок возможно на основе расчёта центильных таблиц для отдельных регионов России и последующей стандартизации с учётом региональной изменчивости численности и возрастной структуры населения. Отметим, что элементы технологии больших данных были реализованы в нашем исследовании только за счёт вертикального масштабирования – увеличения мощности вычислительной техники и объёма памяти. При нарастании скорости потока и общего объёма данных профилактического скрининга могут возникнуть проблемы хранения и обработки данных, которые потребуют других решений. Возможности биоимпедансометрии для характеристики состава тела, нутритивного статуса и эпидемиологических рисков в сравнении с антропометрией более широки. Для этого используются оценки абсолютных и относительных значений жировой, тощей, скелетно-мышечной и активной клеточной массы, фазового угла импеданса и другие показатели [8,10]. Наряду с приведёнными примерами изучения половозрастных особенностей, полученные данные можно использовать для анализа временных трендов, региональных и международных сравнений, для сравнительной оценки физического развития и состава тела профессиональных и этнических групп. Одним из недостатков базы данных ФИР ЦЗ является то, что в ней не фиксируется текущая информация о наступлении значимых событий (заболеваний и исходов). Прямое уточнение существующих и формирование новых шкал риска с учётом региональных и иных особенностей в этих условиях недоступно. Возможности эпидемиологического мониторинга на базе центров здоровья могут возрасти при включении медицинской информационной системы центров здоровья (МИС ПК ЦЗ) в структуру единой государственной информационной системы в сфере здравоохранения (ЕГИСЗ) [12]. Результаты проведённого ретроспективного анализа показывают актуальность создания автоматизированной системы мониторинга качества и достоверности первичных данных профилактического скрининга в центрах здоровья. Необходимым условием этого является повышение статуса ФИР ЦЗ, принятие решения на уровне Минздрава России о возобновлении государственной поддержки ФИР ЦЗ и обязательности предоставления данных. Новым принципом организации работы ФИР ЦЗ должно стать применение технологии больших данных. Выводы
Благодарности Работа выполнена в ФГБУ «ЦНИИОИЗ» Минздрава России при поддержке Российского научного фонда (грант № 14-15-01085, рук. В.И. Стародубов). Библиография
References
Просмотров: 13071
Добавить комментарий
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Последнее обновление ( 13.01.2016 г. ) |
След. » |
---|