ВЫБОР МЕТОДА ДЛЯ СТАТИСТИЧЕСКОГО АНАЛИЗА МЕДИЦИНСКИХ ДАННЫХ И СПОСОБА ГРАФИЧЕСКОГО ПРЕДСТАВЛЕНИЯ РЕЗУЛЬТАТОВ |
19.08.2019 г. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
DOI: 10.21045/2071-5021-2019-65-4-9
Наркевич А.Н., Виноградов К.А. Резюме Актуальность. В настоящее время в научной деятельности в сфере медицины резко возросло внимание к статистической обработке медицинских данных. Важнейшей задачей исследователя при проведении медицинских исследований является выбор конкретного метода статистического анализа данных. Целью данной статьи является систематизация и представление схем выбора статистического метода для анализа и графического представления полученных данных на основе цели статистического анализа и типа анализируемых данных. Результаты. В статье представлена схема выбора статистических методов исследования для анализа медицинских данных, учитывающая тип анализируемых признаков и цель статистического анализа. Помимо этого, представлена схема выбора способа графического представления результатов исследования, также учитывающая тип визуализируемых признаков и цель статистического анализа, при котором получен результат. Заключение. Представленные схемы позволяют исследователю систематизировать собственные знания в области статистического анализа медицинских данных и их графического представления, а также представляют практический инструмент для быстрого выбора необходимых статистических методов и типов диаграмм. Область применения результатов. Представленная в статье систематизация процессов выбора статистического метода для анализа медицинских данных и способа графического представления результатов исследований может применяться при проведении медицинских исследований и представлении их результатов в научных изданиях. Ключевые слова: медицинские исследования; статистические методы; визуализация результатов; выбор метода; анализ данных.
Контактная информация: Наркевич Артем Николаевич, email:
Этот e-mail защищен от спам-ботов. Для его просмотра в вашем браузере должна быть включена поддержка Java-script
THE CHOICE OF METHOD FOR STATISTICAL ANALYSIS OF MEDICAL DATA AND METHOD OF GRAPHICAL REPRESENTATION OF RESULTS Abstract Significance. Currently, much attention is being paid to statistical processing of medical data in medical research. The most important task of the researcher in medical studies is to choose a specific method of statistical data analysis. The purpose of this article is to systematize and present the algorithms of statistical method selection for the analysis and graphical representation of the obtained data based on the purpose of the statistical analysis and the type of analyzed data. Results. The article presents an algorithm for selecting statistical research methods for the analysis of medical data, taking into account the type of analyzed characteristics and the purpose of statistical analysis. In addition, the algorithm for choosing the method of graphical representation of the results of the study is presented with due regard to the type of visualized features and the purpose of statistical analysis that provided the result. Conclusions. The presented algorithms allow the researcher to systematize their own knowledge in the field of statistical analysis of medical data and their graphical representation, as well as provide a practical tool for quick selection of the necessary statistical methods and types of the charts. Scope of application. The systematized processes of choosing a statistical method for the analysis of medical data and the method of graphical representation of research results can be used in medical research and presentation of their results in scientific journals. Keywords: medical research; statistical methods; visualization of results; choice of method; data analysis.
Corresponding author: Artem N. Narkevich, email:
Этот e-mail защищен от спам-ботов. Для его просмотра в вашем браузере должна быть включена поддержка Java-script
Введение В настоящее время в научной деятельности в сфере медицины резко возросло внимание к статистической обработке медицинских данных [1-4]. Для полноценного статистического анализа медицинских данных необходимо заблаговременное освоение различного набора знаний. Важнейшей задачей исследователя при проведении медицинских исследований является выбор конкретного метода статистического анализа данных [1,5]. В данной статье представлены схемы выбора статистического метода для анализа и графического представления полученных данных на основе цели статистического анализа и типа анализируемых данных. При проведении медицинского исследования, для того чтобы выбрать адекватный метод статистического анализа, в первую очередь необходимо определить с каким типом данных исследователь имеет дело. Тип медицинских данных – способ представления учетных признаков, изучаемых в процессе исследования. Схема типов медицинских данных представлена на рисунке 1.
Количественный тип данных – это тип данных, при котором значения признака имеют числовое выражение. Например, количество лейкоцитов в одном миллилитре крови, количество родившихся детей за год, возраст, скорость оседания эритроцитов, количество колоний, выросших на питательной среде и т.д. Ранговый (порядковый) тип данных - это тип данных, при котором исследователю известен порядок значений, но на сколько отличаются эти значения сказать нельзя. Классическим примером ранговых данных являются места на соревнованиях по бегу на 100 метров. Например, Иванов И. И. занял 1 место, Петров П. П. - 2 место, а Сидоров С. С. - 3 место и т.д. Имея такие данные можем сказать, что Иванов И. И. прибежал первым, но насколько быстрее он прибежал, чем Петров П. П. или Сидоров С. С. сказать нельзя. Насколько быстрее он прибежал чем остальные участники соревнований можно сказать только если знать конкретное время, за которое прибежали участники соревнований, но это уже будут количественные данные. Выражаться ранговые данные могут также как и количественные данные в виде чисел (оценка состояния новорожденного по шкале Апгар от 0 до 10; степень дыхательной недостаточности от 0 до IV, стадии онкологического процесса), плюсами (количество оксалатов в моче +, ++, +++ или ++++; массивность роста микобактерий +, ++, +++ или ++++) или разделенными количественными признаками по группам, например, возрастные группы (от 20 до 29 лет, от 30 до 39 лет, от 40 до 49 лет и т.д.), группы с размером ноги (от 35 до 37, от 38 до 40, от 41 до 43 и т.д.). Качественный (описательный, атрибутивный, категориальный или номинальный) тип данных – это тип данных, при котором выражаются характеристики единицы наблюдения, которые нельзя представить ни в количественном, ни в ранговом виде. Как правило качественные данные могут иметь заранее известные значения. Качественные данные также можно разделить на два подвида качественных данных: дихотомические и множественные. Дихотомические качественные данные – это данные, имеющие два возможных значения, например, пол (мужской или женский) или наличие какого-то конкретного заболевания (есть или нет). Множественные качественные данные – это данные, имеющие более двух возможных значений, например, диагноз (ИБС, сахарный диабет, почечная недостаточность …), семейный статус (холост, женат, разведен, вдовец или гражданский брак) или социальный статус (учащийся, рабочий, служащий, инвалид, не работающий и т.д.). В некоторых случая качественные данные могут иметь заранее известные варианты, как в примере с семейным или социальным статусом, а в некоторых случая могут иметь заранее неизвестные варианты, как в примере с диагнозом. Еще одним типом данных является временной тип. По своей сути и свойствам временной тип данных является частным случаем количественных данных, но иногда он выделяется отдельным типом данных. Временной тип данных – это тип данных, при котором данные представлены в виде разности между временем наступления некоторых событий, выраженное в секундах, минутах, часах, днях, неделях, месяцах, годах и т.д. Например, число дней до наступления осложнения с момента заболевания, длительность лечения в месяцах, время наступления смерти с момента получения травмы в минутах и т.д. На первый взгляд между представленными типами данных имеются довольно явные различия. Однако, на практике не всегда легко определить с каким типом данных исследователь имеет дело. Несомненно, в серьезном исследовании исследователь имеет не один тип данных, а довольно большое количество различных учетных признаков, каждый из которых выражен своим типом данных. В таком случае, при анализе признаков, выраженных различными типами данных, необходимо применение различных статистических методов. Помимо типа данных еще одной очень важной характеристикой является распределение данных. Эта характеристика имеет значение только в тех случаях, когда исследователь имеет дело с количественными данными. Методологически распределение данных – это перечень всех значений, интервалов группирования или категорий набора данных с указанием количества наблюдений, попадающих в каждый интервал или вероятности попадания значений в данный интервал. Еще одно определение распределения данных – соотношение между возможными значениями случайной величины и их вероятностями. В рамках данной статьи не будем более глубоко вдаваться в понятие распределения данных, так как это также довольно обширная тема и может стать предметом другой статьи. Отметим лишь следующее. С практической точки зрения для исследователя важным является одно распределение. Данное распределение называется нормальным или Гауссовым распределением. Для того чтобы определить подчиняются ли имеющиеся количественные данные закону нормального распределения можно воспользоваться следующими методами:
Если в распоряжении исследователя имеется только табличный редактор (например, Excel), то можно воспользоваться первыми тремя методами, а если в распоряжении имеются специализированные статистики программы (например, Statistica, SPSS, PSPP, R и т.д.) [6,7], то лучше ориентироваться на специализированные критерии указанные в пункте 4. Следующей характеристикой, которая необходима для верного выбора статистического метода является цель статистического анализа. Цель статистического анализа всегда исходит из цели и задач самого исследования. Основными целями статистического анализа являются: Описание группы (или групп) – позволяет получить обобщенную оценку полученных в результате исследования данных и человеку, который не имеет первоначальных данных, а лишь читает статью, диссертацию или научный отчет получить представление об этих данных. Экстраполяция данных на генеральную совокупность – позволяет оценить возможные значения изучаемых на выборке параметров в генеральной совокупности. Сравнение одной группы с единичным значением – позволяет оценить различия между имеющейся группой данных и каким-либо известным (например, по литературным данным) единичным значением. Сравнение групп – позволяет оценить различия между имеющимися группами данных. При решении задачи сравнения групп необходимо учитывать еще два важных аспекта. Во-первых, количество сравниваемых групп, так как статистический анализ в случаях сравнения двух групп отличается (зачастую довольно существенно) от случая сравнения трех и более групп. Во-вторых, связанность (зависимость) или не связанность (независимость) групп. Связанными (зависимыми) группами называются группы, в которых содержаться данные, полученные от одних и тех же единиц наблюдения, как правило, в разное время. Несвязанными (независимыми) группами называются группы, в которых содержаться данные, полученные от различных единиц наблюдения. В качестве примера связанных групп можно привести следующие группы. Исследователем изучается влияние приема гипотензивного препарата на артериальное давление. Для того чтобы проверить снижается ли артериальное давление после приема препарата исследователь измерил артериальное давление 100 исследуемым пациентам до приема препарата и через 1 час после его приема. В данном случае данные полученные у пациентов до приема препарата будут составлять I сравниваемую группу, а данные полученные через 1 час – II сравниваемую группу. Так как данные как в I, так и во II группе получены от одних и тех же единиц наблюдения (100 исследуемых пациентов), то такие группы будут связанными. В качестве примера несвязанных групп можно привести следующее исследование. Исследователем изучается концентрация какого-либо белка в крови у мужчин и женщин. Для того чтобы проверить имеется ли отличие концентрации белка в крови у мужчин от женщин исследователь произвел биохимический анализ крови 100 мужчинам и 100 женщинам. В данном случае данные полученные от мужчин будут составлять I сравниваемую группу, а данные полученные от женщин – II исследуемую группу. Так как данные в группах получены от разных единиц наблюдения (I группа – от мужчин, II группа – от женщин), то такие группы будут несвязанными. Оценка связи между признаками – позволяет оценить имеется ли между какими-либо признаками связь, то есть меняется ли у пациентов один признак при изменении другого признака. Прогнозирование признака – позволяет по известным параметрам исследуемых единиц наблюдения прогнозировать значение какого-либо другого признака. При решении данной задачи также необходимо учитывать на основе скольки признаков будет строиться прогностическая модель – либо на основе одного входного признака, либо на основе множества (двух и более) признаков. От этого также зависит выбор необходимого статистического метода. После того, как определены тип анализируемых данных, нормальность распределения (при необходимости), цель статистического анализа, количество групп и их связанность (при необходимости), а также число признаков, на основе которых будет осуществляться построение прогностической модели (при необходимости) практически однозначно можно определить необходимый статистический метод (таблица 1). Необходимо отметить, что анализ количественных данных, которые не подчиняются закону нормального распределения осуществляется с помощью тех же методов, что и анализ ранговых данных. Таблица 1 Схема выбора статистического метода в зависимости от типа анализируемых данных и цели анализа данных
К примеру, в случае, когда перед исследователем стоит цель описать данные в одной группе, при этом данные представлены количественным типом и нормально распределены, то для их описания используются среднее арифметическое и стандартное отклонение. В случае, когда данные представлены ранговым типом или количественным типом (при этом данные не подчиняются закону нормального распределения) применяется медиана, первый и третий квартили, качественным типом (не зависимо от количества вариант) – проценты, а временным типом – медиана, первый и третий квартили кривой выживаемости. Рассмотрим более сложный пример. Целью статистического анализа является сравнение четырех несвязанных групп, данные в которых представлены количественным типом. При этом данные не подчиняются закону нормального распределения. В таком случае необходимо применение критерия Крускала-Уоллиса. Помимо выбора адекватного статистического метода для анализа медицинских данных перед исследователем стоит задача «грамотно» представить получаемые результаты. Схема выбора способа графического представления результатов в зависимости от типа анализируемых данных и цели анализа данных представлена в таблице 2. Необходимо отметить, что во многих случаях при графическом представлении результатов исследования довольно часто информативным является использование так называемой диаграммы «ящик с усами». Диаграмма «ящик с усами» является довольно универсальным способом представления количественных и ранговых данных. Однако, в зависимости от типа имеющихся данных структурные элементы «ящика» отличаются. В случае представления количественных нормально распределенных данных применяется «ящик с усами», в котором в качестве середины «ящика» представляется среднее арифметическое, в качестве границ самого «ящика» – среднее арифметическое минус и плюс стандартное отклонение, а в качестве «усов» – минимальное и максимальное значения. Таблица 2 Выбор способа графического представления результатов в зависимости от типа анализируемых данных и цели анализа данных
В случае представления количественных ненормально распределенных данных или ранговых данных применяется «ящик с усами», в котором в качестве середины «ящика» представляется медиана, в качестве границ самого «ящика» – первый и третий квартили, а в качестве «усов» – минимальное и максимальное значения. Также необходимо отметить, что при представлении результатов оценки связи между качественными признаками практически нецелесообразно использовать какие-либо диаграммы. При этом наиболее показательным и одновременно информативным является представление результатов оценки связи между качественными признаками с помощью таблицы сопряженности. Заключение Таким образом, в статье представлены схема выбора статистических методов исследования для анализа медицинских данных, учитывающая тип анализируемых признаков и цель статистического анализа. Помимо этого, представлена схема выбора способа графического представления результатов исследования, также учитывающая тип визуализируемых признаков и цель статистического анализа, при котором получен результат. Представленные схемы позволяют исследователю систематизировать собственные знания в области статистического анализа медицинских данных и их графического представления, а также представляют практический инструмент для быстрого выбора необходимых статистических методов и типов диаграмм. Библиография
References
Дата поступления: 10.07.2019 Просмотров: 10776
Добавить комментарий
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Последнее обновление ( 27.08.2019 г. ) |
« Пред. | След. » |
---|