ОСОБЕННОСТИ РАБОТЫ С ДАННЫМИ, ХАРАКТЕРИЗУЮЩИМИ ЗДОРОВЬЕ НАСЕЛЕНИЯ: ЗАПОЛНЕНИЕ ПРОПУСКОВ В ДАННЫХ

30.03.2020 г.

DOI: 10.21045/2071-5021-2020-66-1-12

Аладышкина А.С., Лакшина В.В., Леонова Л.А., Максимов А.Г.
Национальный исследовательский университет «Высшая школа экономики», Нижний Новгород, Россия

Резюме

Актуальность. В ряде случаев базы данных показателей, использующихся как для исследований в области здравоохранения, так и для решения различных социально-экономических задач, содержат существенное количество пропущенных значений. Для повышения эффективности работы с такими базами возникает необходимость заполнения пропусков в данных. Эта необходимость обусловлена потерей информации при простом игнорировании пропущенных значений и возможностью получения в этом случае смещенных и несостоятельных результатов.

Цель исследования: оценить применимость алгоритма MICE (multivariate imputation by chained equations) для восстановления пропущенных значений в приложении к данным, релевантным задаче исследования зависимости предложения труда от показателей здоровья населения.

Материал и методы. Исследование проводилось на основе данных RLMS HSE. Для восстановления пропущенных значений был применен алгоритм MICE, основанный на использовании метода Монте-Карло по схеме марковской цепи для получения апостериорных распределений переменных, содержащих пропуски.

Результаты. Проведенный анализ показал наличие существенной доли пропусков в значениях выбранных переменных, включающих в себя показатели здоровья и социально-экономические характеристики респондентов. Произведено восстановление пропущенных значений переменных алгоритмом MICE, результаты работы алгоритма проверены на сходимость. Получены эмпирические оценки плотностей и функций вероятности для восстановленных данных. В качестве примера восстановленные данные применены для оценки параметров пространственной панельной регрессии, для каждого параметра по правилу Рубина рассчитаны стандартные ошибки с учетом проведенной импутации, а также доля дисперсии из-за пропусков в данных.

Область применения результатов. Путем применения алгоритмов заполнения пропусков может быть повышена эффективность использования показателей, представленных в различных базах данных.

Ключевые слова: заполнение пропусков в данных; самооценка здоровья; предложение труда.

Для цитирования: Аладышкина А.С., Лакшина В.В., Леонова Л.А., Максимов А.Г. Особенности работы с данными, характеризующими здоровье населения: заполнение пропусков в данных. Социальные аспекты здоровья населения [сетевое издание] 2020; 66(1):12. URL: http://vestnik.mednet.ru/content/view/1139/30/lang,ru/ DOI: 10.21045/2071-5021-2020-66-1-12

WORKING WITH DATA ON POPULATION HEALTH: IMPUTATION
Aladyshkina AS, Lakshina VV, Leonova LA, Maksimov AG.
National Research University Higher School of Economics, Nizhny Novgorod, Russia

Abstract

Significance. In some cases, the databases of the indicators, used both for health research and for solving various socio-economic problems, contain a significant amount of missing values. To increase the efficiency of working with such data, it becomes necessary to impute the missing values without changing statistical characteristics of the data. This is caused by the loss of a large amount of information when simply ignoring the missing values and even obtaining biased and inconsistent results.

Purpose: to evaluate applicability of MICE (multivariate imputation by chained equations) algorithm for imputing the missing values in the data relevant to the task of studying the relation between labor supply and population health indicators.

Material and Methods. The study was conducted on the basis of the RLMS HSE database. To restore the missing values, the MICE algorithm, based on Markov chains Monte Carlo method was used to obtain posterior distributions of variables containing missing values.

Results. The analysis showed a significant proportion of missing values in the selected variables, including both health indicators and various socio-economic characteristics of the respondents. The missing values were restored by the MICE algorithm and its results were tested for convergence. Empirical estimates of the densities and probability functions for the imputed data are obtained. As an example, the imputed data was used to estimate the parameters of the spatial panel regression; for each parameter standard errors, which according to the Rubin rule take into account the imputation performed, as well as the proportion of variance due to missing values were calculated.

Conclusion. By applying imputation algorithms the problem of missing values can be solved and the efficiency of using indicators presented in various databases can be improved.

Keywords: imputation; self-rated health; labor supply.

Corresponding author: Anna S. Aladyshkina, e-mail: Этот e-mail защищен от спам-ботов. Для его просмотра в вашем браузере должна быть включена поддержка Java-script
Information about authors:
Aladyshkina A.S., https://orcid.org/0000-0003-3885-8849
Lakshina V.V., https://orcid.org/0000-0003-1447-9377
Leonova L.A., https://orcid.org/0000-0002-9583-8310
Maksimov A.G., https://orcid.org/0000-0001-6307-1656
Acknowledgments. The reported study was funded by RFBR, project number 19-010-00225.
Conflict of interests. The authors declare no conflict of interest.
For citation. Aladyshkina AS, Lakshina VV, Leonova LA, Maksimov AG. Working with data on population health: imputation. Social'nye aspekty zdorov'a naselenia / Social aspects of population health [serial online] 2020; 66(1):12. Available from: http://vestnik.mednet.ru/content/view/1139/30/lang,ru/ DOI: 10.21045/2071-5021-2020-66-1-12. (In Rus).

DOI: 10.21045/2071-5021-2020-66-1-12

ОСОБЕННОСТИ РАБОТЫ С ДАННЫМИ, ХАРАКТЕРИЗУЮЩИМИ ЗДОРОВЬЕ НАСЕЛЕНИЯ: ЗАПОЛНЕНИЕ ПРОПУСКОВ В ДАННЫХ

Аладышкина А.С., Лакшина В.В., Леонова Л.А., Максимов А.Г.

Национальный исследовательский университет «Высшая школа экономики», Нижний Новгород, Россия

Резюме

Ключевые слова: заполнение пропусков в данных; самооценка здоровья; предложение труда.

Контактная информация: Аладышкина Анна Сергеевна, email: Этот e-mail защищен от спам-ботов. Для его просмотра в вашем браузере должна быть включена поддержка Java-script
Финансирование. Работа выполняется при финансовой поддержке Российского фонда фундаментальных исследований (грант № 19-010-00225).
Конфликт интересов. Авторы заявляют об отсутствии конфликта интересов.
Для цитирования: Аладышкина А.С., Лакшина В.В., Леонова Л.А., Максимов А.Г. Особенности работы с данными, характеризующими здоровье населения: заполнение пропусков в данных. Социальные аспекты здоровья населения [сетевое издание] 2020; 66(1):12. URL: http://vestnik.mednet.ru/content/view/1139/30/lang,ru/ DOI: 10.21045/2071-5021-2020-66-1-12

WORKING WITH DATA ON POPULATION HEALTH: IMPUTATION
Aladyshkina AS, Lakshina VV, Leonova LA, Maksimov AG.
National Research University Higher School of Economics, Nizhny Novgorod, Russia

Abstract

Conclusion. By applying imputation algorithms the problem of missing values can be solved and the efficiency of using indicators presented in various databases can be improved.

Keywords: imputation; self-rated health; labor supply.

Введение

В настоящее время при проведении исследований в сфере медицины всё больше возрастает потребность в статистической обработке данных, связанных со здоровьем [1,2]. Растущее внимание к данному виду анализа продиктовано, в том числе, потребностью в анализе социально-экономических процессов и явлений, которые могут определяться уровнем здоровья индивидов. В частности, актуальной задачей исследования рынка труда является анализ влияния здоровья индивидов на объем предложения труда [3–5], так как при ухудшении здоровья потенциальное количество часов, которые готов посвятить работе индивид, будет сокращаться.

Предложение труда может быть проанализировано с использованием микроданных, полученных на основании опросов населения, включающих, в том числе, различные показатели здоровья населения, такие как самооценка здоровья и возможные детерминанты здоровья (количество потребляемого алкоголя, индекс массы тела, курение, занятия спортом и др.) [6–9]. Как правило, подобные данные, собираемые посредством интервью, характеризуются большим количеством пропусков. Для эффективной работы с ними возникает необходимость заполнения пропусков в данных, поскольку простое отбрасывание наблюдений, содержащих пропущенные значения, может привести к изменению статистических характеристик выборки [10].

Действительно, пусть имеется набор наблюдений за N объектами, имеющими L характеристик каждый. Этот набор можно представить в виде матрицы размера N×L. Пусть P_i – доля пропущенных данных для i-той характеристики во всех наблюдениях. Тогда количество наблюдений, исключаемых из анализа, при простом отбрасывании наблюдений, содержащих пропуски значений, находится в интервале [Max(P_i, i=1,…,L); Min(1,Σ^L₁P_i). При достаточно большом количестве характеристик происходит потеря значительной доли наблюдений, что приводит к существенному снижению точности (увеличению дисперсий) оценок параметров, получаемых с использованием такого набора. Кроме того, если пропуски не случайны, а связаны со значениями пропущенных переменных или другими характеристиками наблюдений, то оценки могут оказаться не только смещенными, но и несостоятельными.

Восстановление пропусков в данных, или импутация (от англ. imputation) широко применяется в исследованиях в области биологии [11,12], медицины [12-15], образования [16], политологии [17], экономики [18-20] и др.

В настоящей работе рассмотрено заполнение пропусков в данных на примере подготовки данных для моделирования зависимости предложения труда от показателей здоровья населения.

Различают несколько типов пропусков данных в зависимости от их происхождения [10]: MCAR (missing completely at random, совершенно случайные пропуски), MAR (missing at random, случайные пропуски) и MNAR (missing not at random, неслучайные пропуски). Тип MNAR отличается от первых двух тем, что распределение пропусков зависит от самих пропущенных значений. Тип MCAR подразумевает, что пропущенные значения составляют случайную выборку из анализируемого набора данных. Пропущенные значения типа MAR не зависят от пропусков в других переменных, но могут коррелировать с имеющимися данными.

В настоящее время практика статистического тестирования типов пропусков данных ещё не сложилась. Тем не менее, существует ряд методов (например, межгрупповых корреляций, условных гистограмм и др.), позволяющих определить, к какому из двух типов, MCAR или MAR, относятся пропуски в данных. Проверка на наличие MNAR-пропусков и учет такого типа пропусков в эконометрической модели требует дополнительного исследования [10]. В настоящей работе мы предполагаем отсутствие MNAR-пропусков и наличие MCAR- и MAR-пропусков в данных.

В рамках исследования проведено восстановление пропущенных значений алгоритмом многомерного заполнения с помощью сцепленных уравнений MICE (от англ. multivariate imputation by chained equations), реализованным на языке программирования R [21]. Согласно этому алгоритму, предсказательная модель для j-ой переменной строится с использованием модели для (j-1)-ой переменной, т.е. предсказательные модели строятся последовательно, образуя цепочку.

Проведённый анализ научной литературы показал, что подобные исследования на российских данных не проводились.

Целью работы является оценка применимости алгоритма MICE для восстановления пропущенных значений на примере подготовки данных для последующего исследования зависимости предложения труда от показателей здоровья населения.

Материал и методы

Одной из баз данных, предоставляющих информацию о самооценках здоровья индивида, является Российский мониторинг экономического положения и здоровья населения НИУ ВШЭ (RLMS HSE), проводимый Национальным исследовательским университетом «Высшая школа экономики» и ООО «Демоскоп» при участии Центра народонаселения Университета Северной Каролины в г. Чапел-Хилл и Института социологии Федерального научно-исследовательского социологического центра РАН [22]. RLMS HSE – практически единственное в России репрезентативное социально-экономическое обследование домохозяйств, охватывающее значительный промежуток времени, что предоставляет возможности не только статического, но и динамического анализа. В контексте поставленной задачи подготовки данных для моделирования зависимости предложения труда от показателей здоровья населения база данных RLMS HSE является источником информации о социально-экономическом статусе респондентов, самооценке здоровья и средней продолжительности рабочей недели. Выборка включает в себя данные RLMS HSE с 2008 по 2017 гг., т.е. волны с 17 по 25.

Существуют разные методы заполнения пропусков в данных, такие как заполнение средними значениями, метод ближайшего соседа, регрессионное моделирование пропусков, EM-алгоритм и др. (подробнее см. в [23,24]). Алгоритм MICE использует метод Монте-Карло по схеме марковской цепи для получения апостериорных распределений вероятностей для переменных, содержащих пропуски. Используемый метод относится к методам множественного заполнения пропусков и охватывает случаи, когда в наборе данных содержится несколько переменных с пропущенными значениями.

Общая схема алгоритма MICE содержит три этапа. На первом этапе с помощью метода Монте-Карло генерируются m марковских цепей, представляющих собой наборы данных того же размера, что и исходный набор, но без пропусков. На втором этапе на каждом i-ом из m сгенерированных наборов данных оценивается k×1 вектор параметров требуемой модели Q. На третьем этапе выполняется объединение полученных оценок параметров и вычисляется их дисперсия. В [25] показано, что дисперсия оцененных параметров, условная на наблюдаемые данные, представима в виде суммы внутригрупповой (within group) и межгрупповой (between group) дисперсии:

где E[·] – оператор математического ожидания, V[·] – оператор дисперсии, – -ый элемент вектора , содержащего оценки параметров; Y_obs– наблюдаемые данные; Y_mis – пропущенные наблюдения; W_l– внутригрупповая дисперсия , рассчитываемая по формуле

где U_l,i – дисперсия , рассчитанная на i-том наборе данных; B_l – межгрупповая дисперсия , рассчитываемая по формуле

где – оценка параметра Q_l, рассчитанная на i-том наборе данных, .

Тогда полная дисперсия l-го параметра T_l вычисляется по правилу Рубина [25]:

При этом – это дисперсия, обусловленная получением оценок с помощью симуляций. На основании полной дисперсии можно рассчитать ряд показателей качества заполнения пропусков в данных для l-го параметра, например, долю дисперсии из-за пропусков в данных λ_lи относительное увеличение дисперсии из-за пропусков в данных r_l [10]:

На основе базы данных RLMS HSE, принимая во внимание задачу исследования влияния здоровья на предложение труда, были собраны данные по 17 показателям. Соответствующие переменные включали в себя социально-демографические характеристики (возраст, пол, уровень образования, регион проживания, статус места жительства, семейное положение, количество детей) и информацию о физиологическом и эмоциональном состоянии респондентов (индекс массы тела, самооценка здоровья, наличие вредных привычек, уровень удовлетворенности жизнью и работой). Социально-экономический статус респондентов характеризовался логарифмом среднегодового дохода.

В рамках поставленной задачи выборка была ограничена респондентами в возрасте от 15 до 72 лет. В выборку вошли только те респонденты, которые участвовали во всех опросах за указанный период – 2263 человека. Таким образом, всего рассматривалось 22630 наблюдений.

Собранные данные содержали значительное количество пропусков. Доля пропусков в общем количестве наблюдений составила 12,1%. При этом шесть переменных из 17 не содержали пропусков. Для переменных с пропусками процентное соотношение количества пропущенных значений к общему числу наблюдений представлено в табл. 1. Подробное описание переменных содержится в Приложении 1.

Таблица 1

Процентное соотношение количества пропущенных значений к количеству наблюдений для рассматриваемых переменных

Название переменной	Количество пропущенных значений	Доля пропущенных значений, %
Употребление алкоголя	12169	53,77%
Логарифм среднегодового дохода	9900	43,75%
Средняя продолжительность рабочей недели	9774	43,19%
Уровень удовлетворенности работой	9259	40,91%
Количество детей	4193	18,53%
Индекс массы тела	949	4,19%
Уровень удовлетворенности жизнью	183	0,81%
Самооценка здоровья	159	0,70%
Уровень образования	19	0,08%
Курение	8	0,04%
Семейное положение	7	0,03%

Источник: расчеты авторов по данным RLMS-HSE

Пропуски отсутствовали в переменных возраст, пол, регион проживания, тип населенного пункта и двух переменных, характеризующих качество экологической обстановки (выбросы в атмосферу загрязняющих веществ, отходящих от стационарных источников, и объем загрязненных сточных вод).

Для проверки наличия MAR-пропусков была рассчитана межгрупповая корреляция для всех переменных, содержащих пропуски [26]. При этом для группировки данных использовались качественные переменные: федеральный округ, уровень образования, удовлетворенность работой, удовлетворенность жизнью, самооценка здоровья, курение, семейное положение.

Попарные межгрупповые корреляции для переменных, содержащих пропуски в данных, представлены в табл. 2.

Таблица 2

Попарные межгрупповые корреляции
(В строках показаны переменные, содержащие пропущенные значения; в столбцах - качественные переменные, по которым производилась группировка)

	Курение	Самооценки здоровья	Семейное положение	Удовлетво-ренность жизнью	Удовлетво-ренность работой	Уровень образования	Федераль-ный округ
Индекс массы тела	0,0320	0,1020	0,0163	0,0033	0,0002	0,0046	0,0002
Количество детей	0,0001	0,0001	0,0281	-0,0001	0,0011	0,0606	0,0063
Логарифм среднегодового дохода	0,0092	0,0242	0,0026	0,0777	0,0949	0,0876	0,0373
Самооценка здоровья	0,0000	1,0000	0,0028	0,1380	0,0473	0,0062	0,0017
Семейное положение	0,0120	0,0028	1,0000	0,0177	-0,0001	-0,0001	0,0007
Средняя продолжительность рабочей недели	0,0636	0,0055	0,0079	0,0000	0,0003	0,0554	0,0027
Удовлетворенность жизнью	0,0068	0,1380	0,0177	1,0000	0,2049	0,0228	0,0157
Удовлетворенность работой	0,0077	0,0473	-0,0001	0,2049	1,0000	0,0353	0,0143
Употребление алкоголя	0,1833	-0,0001	0,0033	0,0038	0,0000	0,0227	0,0015
Уровень образования	0,0633	0,0062	-0,0001	0,0228	0,0353	1,0000	0,0112

Источник: расчеты авторов по данным RLMS-HSE

Как следует из табл.2, значимая межгрупповая корреляция между переменными отсутствовала. Это позволяет сделать вывод, что в исследуемых данных пропуски не зависят от наблюдаемых данных.

Другим способом проверки пропусков на принадлежность к типу MAR является анализ условных гистограмм. Пусть имеется переменная , содержащая пропуски. Наличие пропусков в ней служит условием для построения гистограмм для другой, вспомогательной переменной, назовем ее . Для переменной строятся две гистограммы: первая – для тех значений, для которых значение переменной известно, вторая – для тех ее значений, для которых значение переменной пропущено. Если гистограммы отличаются, то можно предположить, что пропуски в не являются совершенно случайными и, возможно, зависят от наблюдаемых значений других переменных, в частности

Алгоритм MICE позволяет выбирать разные способы восстановления данных для каждой переменной. Для количественных переменных выбран алгоритм сопоставления на основе предсказанного среднего (predictive mean matching), для качественных – логистическая регрессия для бинарных переменных (logistic regression) и модель пропорциональных коэффициентов (proportional odds model) для мультиномиальных переменных.

Результаты

Для визуализации пропусков в данных по каждой из переменных применялись матрицы пропусков. Матрица пропусков представляет собой сводную таблицу долей или количеств пропусков для сгруппированных данных – например, в соответствии с годом наблюдения и местом проживания респондента. За весь выбранный временной период с 2008 по 2017 гг. данные были доступны для семи федеральных округов (Северо-Кавказский округ был выделен из состава Южного в 2010 году), поэтому данные в матрицах пропусков были сгруппированы в семь столбцов, соответствующих определенному федеральному округу (с 2010 года данные для Южного и Северо-Кавказского федерального округов были объединены и рассматривались под маской Южного федерального округа). Матрица пропусков для переменной «самооценка здоровья индивида» представлена в табл. 3.

Таблица 3

Матрица пропусков для самооценок здоровья индивида (количество пропусков в данных в зависимости от года наблюдения и федерального округа)

	ЦФО	СЗФО	ЮФО	ПФО	УрФО	СФО	ДВФО
2008	0	0	0	2	1	0	0
2009	0	0	2	5	0	2	2
2010	1	0	1	6	0	0	0
2011	1	0	3	6	0	2	3
2012	2	1	3	11	0	0	1
2013	7	0	12	11	0	7	2
2014	6	0	2	7	0	4	0
2015	2	1	6	7	0	5	1
2016	1	2	3	5	0	2	0
2017	4	1	1	3	0	2	0

Источник: расчеты авторов по данным RLMS-HSE

Как видно из табл. 3, наибольшее количество пропусков для переменной «самооценка здоровья индивида» присутствует для респондентов Приволжского федерального округа.

В табл. 4 и 5 представлены матрицы пропусков для данных о частоте употребления алкогольных напитков в течение последних 30 дней (табл. 4) и средней продолжительности рабочей недели (табл. 5).

Таблица 4

Матрица пропусков для переменной «частота употребления алкогольных напитков в течение последних 30 дней» (доля пропусков в данных в зависимости от года наблюдения и федерального округа)

	ЦФО	СЗФО	ЮФО	ПФО	УрФО	СФО	ДВФО
2008	0,37	0,39	0,69	0,44	0,26	0,38	0,46
2009	0,40	0,43	0,67	0,45	0,28	0,41	0,51
2010	0,39	0,46	0,63	0,46	0,29	0,39	0,49
2011	0,40	0,47	0,67	0,47	0,33	0,45	0,52
2012	0,45	0,43	0,67	0,50	0,39	0,45	0,56
2013	0,48	0,49	0,69	0,53	0,35	0,47	0,63
2014	0,52	0,48	0,75	0,55	0,37	0,51	0,46
2015	0,56	0,55	0,77	0,62	0,46	0,55	0,67
2016	0,53	0,52	0,72	0,57	0,46	0,53	0,63
2017	0,56	0,58	0,80	0,59	0,43	0,58	0,76

Источник: расчеты авторов по данным RLMS-HSE

Таблица 5

Матрица пропусков для переменной «средняя продолжительность рабочей недели» (доля пропусков в данных в зависимости от года наблюдения и федерального округа)

	ЦФО	СЗФО	ЮФО	ПФО	УрФО	СФО	ДВФО
2008	0,24	0,24	0,62	0,29	0,31	0,37	0,32
2009	0,27	0,25	0,59	0,37	0,36	0,38	0,34
2010	0,26	0,28	0,61	0,37	0,34	0,36	0,34
2011	0,31	0,31	0,59	0,40	0,35	0,42	0,42
2012	0,33	0,34	0,52	0,40	0,36	0,43	0,40
2013	0,35	0,32	0,55	0,42	0,35	0,44	0,43
2014	0,37	0,37	0,55	0,42	0,39	0,42	0,41
2015	0,40	0,41	0,57	0,45	0,44	0,49	0,51
2016	0,42	0,40	0,58	0,44	0,41	0,50	0,47
2017	0,44	0,44	0,69	0,47	0,41	0,53	0,49

Источник: расчеты авторов по данным RLMS-HSE

Наибольшее количество пропусков в данных о частоте употребления алкогольных напитков в течение последних 30 дней и средней продолжительности рабочей недели наблюдалось для Южного федерального округа.

Рассмотрим проверку наличия пропусков типа MAR в значениях переменной «частота употребления алкогольных напитков в течение последних 30 дней» ( ), в качестве вспомогательной переменной ( ) используем переменную «средняя продолжительность рабочей недели».

На рис. 1 изображена условная гистограмма для переменной «средняя продолжительность рабочей недели» при условии отсутствия и наличия пропусков в переменной «употребление алкоголя». Распределение продолжительности рабочей недели не зависело от наличия пропусков в переменной, показывающей частоту употребления алкогольных напитков. При этом условные средние значения продолжительности рабочей недели для обеих подгрупп оказались близки.

Рис. 1. Условная гистограмма для переменной «средняя продолжительность рабочей недели» при наличии и отсутствии пропусков в переменной «употребление алкоголя». Показаны условные средние для средней продолжительности рабочей недели.

Источник: расчеты авторов по данным RLMS-HSE

Сравнение средних, условных на количество пропусков в некоторых других переменных, показано в табл. 6. Сравнение считается корректным, если количество наблюдений в подгруппах сопоставимо. Если в подгруппе «Наличие пропусков» содержится менее 5% от общего количества наблюдений, то сравнение условных средних не проводится.

Таблица 6

Условные средние значения для переменной «средняя продолжительность рабочей недели»

	Удовлетворенность работой	Коли-чество детей	Частота употребления алкогольных напитков в течение последних 30 дней	Логарифм среднегодового дохода
Отсутствие пропусков	42,9	42,8	43,3	42,8
Наличие пропусков	43,4	43,2	42,4	44,0

Источник: расчеты авторов по данным RLMS-HSE

Для остальных переменных с пропусками (см. табл. 1) сравнение условных средних дало аналогичные результаты.

Таким образом, признаков наличия MAR-пропусков в анализируемых данных обнаружить не удалось. Это дало основание для использования стандартных алгоритмов заполнения пропусков в данных, в частности MICE.

В параметрах алгоритма MICE длина сгенерированных для каждой переменной марковских цепей составляла 50, количество сгенерированных цепей равно 35. Сходимость марковских цепей к предельному распределению проверена с помощью графика истории марковской цепи, рис. 2 (подробнее про график истории марковской цепи см. [27]).

Рис. 2. Сходимость марковских цепей к предельному распределению при генерации заполненных наборов данных.

Полученные марковские цепи стационарны и демонстрируют перемешивание (см. рис. 2), что свидетельствует о наличии сходимости к их предельному распределению, в данном случае к апостериорному распределению переменных, участвующих в импутации. Согласно рис. 2, сходимость достигнута для переменных «удовлетворенность жизнью», «количество детей» и «самооценка здоровья». Для остальных переменных графики истории марковской цепи аналогичны.

Рис. 3. Эмпирические оценки исходных и восстановленных данных для анализируемых переменных (F_sh – сглаженная оценка функции вероятности переменной «самооценка здоровья»; F_alc – сглаженная оценка функции вероятности переменной «употребление алкоголя»; f_i – сглаженная оценка плотности вероятности переменной «логарифм среднегодового дохода»; f_bmi –сглаженная оценка плотности вероятности переменной «Индекс массы тела»).

Результат восстановления пропусков в данных представлен на рис. 3. Синим цветом показаны эмпирические оценки плотностей и функций вероятности для исходных данных, красным – для восстановленных значений. Характер распределений почти идентичен: соотношение между пиками для первых двух переменных совпадает, а для переменных «логарифм средней заработной платы» и «индекс массы тела» распределения отличаются незначительно.

Обсуждение

Заполнение пропусков в данных особенно актуально в случае использования данных опросов и рандомизированных экспериментов [24]. Для оценки модели предложения труда, учитывающей влияние качества экологической обстановки на здоровье индивида, с помощью пространственной регрессии с фиксированными эффектами необходимы сбалансированные данные. В настоящем исследовании было проведено устранение несбалансированности выборки путем заполнения пропусков в исходных данных [28].

В табл. 7 приведены предварительные оценки параметров пространственной регрессии с фиксированными эффектами на панельных данных RLMS HSE после применения алгоритма MICE.

Таблица 7

Оценки пространственной регрессии, полученные по восстановленным данным (зависимая переменная – количество отработанных часов в неделю)

	Оценка	Стандартная ошибка	t-статистика	p-значение
Выбросы в атмосферу	0,1340	1,6064	0,0834	0,9335	0,3092
Загрязнение воды	0,6916	0,2851	2,4257	0,0153	0,3554
Выбросы в атмосферу*плохое здоровье	-1,5501	0,5984	-2,5907	0,0096	0,3728
Загрязнение воды * плохое здоровье	-0,0669	0,0692	-0,9663	0,3339	0,3422
Логарифм среднегодового дохода	3,6000	0,0933	38,5759	0,0000	0,6535
Возраст	-0,3517	0,0250	-14,0391	0,0000	0,3481
Высокий уровень образования	-0,9675	0,2366	-4,0898	0,0000	0,5106
Высокий уровень удовлетворенности жизнью	-0,3422	0,1089	-3,1434	0,0017	0,5273
Высокий уровень удовлетворенности работой	-0,8811	0,1008	-8,7421	0,0000	0,5213
Пол (1 – мужчина) * Состояние в браке (1- наличие гражданского или официального брака)	0,5656	0,1754	3,2256	0,0013	0,5364

Источник: расчеты авторов по данным RLMS-HSE

Стандартные ошибки в табл. 7 рассчитаны с использованием формулы (2), - пропорция дисперсии из-за пропусков в данных, рассчитанная согласно (3). Численные значения пропорции дисперсии, приведенные в правом столбце табл. 7 показывают, что влияние алгоритма импутации на оценки параметров рассмотренной регрессии является умеренным [10].

Необходимо отметить, что в случае простого исключения наблюдений с пропусками количество респондентов составило бы 1176 (из 2263), т.е. их количество сократилось бы вдвое. Такая выборка уже не являлась бы сбалансированной, и оценить модель пространственной регрессии с фиксированными эффектами на панельных данных не представилось бы возможным. Кроме того, исключение наблюдений с пропусками, возможно, привело бы к смещению оценок параметров [24].

Таким образом, путем применения алгоритма заполнения пропусков в данных (в данном случае, MICE) могут быть устранены некоторые препятствия, возникающие при эконометрическом моделировании, а эффективность использования статистических показателей повышена путем учета большего количества данных.

Ограничением данного исследования является то, что при анализе была принята предпосылка об отсутствии в рассматриваемых данных RLMS HSE неслучайных пропусков типа MNAR. Проверка данного предположения является одним из направлений дальнейших исследований.

Выводы

На основе анализа статистических характеристик пропусков в данных (в том числе, межгрупповых корреляций и условных гистограмм) определен их тип и выбран алгоритм восстановления пропущенных значений. Проверка сходимости алгоритма заполнения пропусков подтвердила применимость использованной методики заполнения пропусков в рассматриваемой части данных RLMS HSE.
Реализация алгоритма MICE позволила сформировать необходимую для исследования базу данных с восстановленными значениями. Полученные массивы данных использованы для решения задачи моделирования зависимости предложения труда от характеристик здоровья индивида с помощью пространственной регрессии с фиксированными эффектами на панельных данных.
Показано, что заполнение пропусков в данных позволяет устранить некоторые препятствия, возникающие при эконометрическом моделировании.

Библиография

Наркевич А.Н., Виноградов К.А. Выбор метода для статистического анализа медицинских данных и способа графического представления результатов. Социальные аспекты здоровья населения [электронный научный журнал] 2019; (4). URL: http://vestnik.mednet.ru/content/view/1092/27/lang,ru/ (Дата обращения 10 ноября 2019)
Реброва О.Ю. Описание статистического анализа данных в оригинальных статьях. Типичные ошибки. Медицинские технологии. Оценка и выбор. 2011; (4): 36-40.
Maurer J, Vella F. Subjective health assessments and active labor market participation of older men: evidence from a semiparametric binary choice model with nonadditive correlated individual-specific effects. The Review of Economics and Statistics 2011; 93(3): 764-774.
Lechner M, Sari N. Labor market effects of sports and exercise: Evidence from Canadian panel data. Labour Economics 2015; 35: 1-15.
Chirikos TN. The relationship between health and labor market status. Annual Review Public Health 1993; 14: 293-312.
Greve J. Obesity and labor market outcomes in Denmark. Economics & Human Biology 2008; 6(3): 350-362.
Brown P, Vickerstaff S. Health subjectivities and labor market participation: pessimism and older workers’ attitudes and narratives around retirement in the United Kingdom. Research on Aging 2011; 33(5): 529-550.
Tekin E. Employment, wages, and alcohol consumption in Russia. Southern Economic Journal 2004; 71(2): 397-417.
Asgeirsdottir TL, McGeary KA. Alcohol and labor supply: the case of Iceland. The European Journal of Health Economics 2009; 10(4): 455-465.
Van Buuren S. Flexible imputation of missing data. CRC press; 2012.
Penone C, Davidson AD, Shoemaker KT, Di Marco M, Rondinini C, Brooks TM, Costa GC. Imputation of missing data in life history trait datasets: which approach performs the best? Methods in Ecology and Evolution 2014; 5(9): 961-970.
Moorthy K, Saberi Mohama M, Deris S. A review on missing value imputation algorithms for microarray gene expression data. Current Bioinformatics 2014; 9(1): 18-22.
Bell ML, Fiero M, Horton NJ, Hsu CH. Handling missing data in RCTs; a review of the top medical journals. BMC medical research methodology 2014; 14(1): 118.
Li P, Stuart EA, Allison DB. Multiple imputation: a flexible tool for handling missing data. Journal of the American Medical Association 2015; 314(18): 1966-1967.
Pedersen AB, Mikkelsen EM, Cronin-Fenton D, Kristensen NR, Pham TM, Pedersen L, Petersen I. Missing data and multiple imputation in clinical epidemiological research. Clinical Epidemiology 2017; 9: 157-166.
Manly CA, Wells RS. Reporting the use of multiple imputation for missing data in higher education research. Research in Higher Education 2015; 56(4): 397-409.
Lall R. How multiple imputation makes a difference. Political Analysis 2016; 24(4): 414-433.
Kim HJ, Reiter JP, Wang Q, Cox LH, Karr AF. Multiple imputation of missing or faulty values under linear constraints. Journal of Business & Economic Statistics 2014; 32(3): 375-386.
White TK, Reiter JP, Petrin A. Imputation in US manufacturing data and its implications for productivity dispersion. Review of Economics and Statistics 2018; 100(3): 502-509.
Vroomen JM, Eekhout I, Dijkgraaf MG, van Hout H, de Rooij SE, Heymans MW, Bosmans JE. Multiple imputation strategies for zero-inflated cost data in economic evaluations: which method works best? The European Journal of Health Economics 2016; 17(8): 939-950.
van Buuren S, Groothuis-Oudshoorn K. MICE: Multivariate Imputation by Chained Equations in R. Journal of Statistical Software 2011; 45(3): 1-67.
Российский мониторинг экономического положения и здоровья населения НИУ ВШЭ (RLMS HSE) [Интернет]. URL: http://www.cpc.unc.edu/projects/rlms и http ://www.hse.ru/rlms (Дата обращения: 10 августа 2019).
Зангиева И.К. Проблема пропусков в социологических данных: смысл и подходы к решению. Социология: методология, методы, математическое моделирование 2011; 33: 28-56.
Little RJA, Rubin DB. Statistical analysis with missing data. John Wiley & Sons; 2014. 408 p.
Rubin DB. Inference and missing data. Biometrika 1976; 63(3): 581-592.
Hox JJ, Moerbeek M, Van de Schoot R. Multilevel analysis: Techniques and applications. Routledge; 2017. 348 p.
Gelman A, Hill J. Data analysis using regression and multilevel/hierarchical models. Cambridge University Press; 2006.
Elhorst JP. Specification and estimation of spatial panel data models. International regional science review 2003; 26(3): 244-268.

References

Narkevich A.N., Vinogradov K.A. Vybor metoda dlya statisticheskogo analiza meditsinskikh dannykh i sposoba graficheskogo predstavleniya rezul’tatov [The choice of method for statistical analysis of medical data and method of graphical representation of results] Sotsial’nye aspekty zdorov’ya naseleniya [serial online] 2019 [cited 2010 Nov 10]; (4). URL: http://vestnik.mednet.ru/content/view/1092/27/lang,ru/ (In Russian)
Rebrova O.Yu. Opisanie statisticheskogo analiza dannykh v original’nykh stat’yakh. Tipichnye oshibki. [Description of statistical data analysis in the original articles. Typical errors] Meditsinskie tekhnologii. Otsenka i vybor. 2011; (4): 36-40. (In Russian)
Maurer J, Vella F. Subjective health assessments and active labor market participation of older men: evidence from a semiparametric binary choice model with nonadditive correlated individual-specific effects. The Review of Economics and Statistics 2011; 93(3): 764-774.
Lechner M, Sari N. Labor market effects of sports and exercise: evidence from Canadian panel data. Labour Economics 2015; 35: 1-15.
Chirikos TN. The relationship between health and labor market status. Annual Review Public Health 1993; 14: 293-312.
Greve J. Obesity and labor market outcomes in Denmark. Economics & Human Biology 2008; 6(3): 350-362.
Brown P, Vickerstaff S. Health subjectivities and labor market participation: pessimism and older workers’ attitudes and narratives around retirement in the United Kingdom. Research on Aging 2011; 33(5): 529-550.
Tekin E. Employment, wages, and alcohol consumption in Russia. Southern Economic Journal 2004; 71(2): 397-417.
Asgeirsdottir TL, McGeary KA. Alcohol and labor supply: the case of Iceland. The European Journal of Health Economics 2009; 10(4): 455-465.
Van Buuren S. Flexible imputation of missing data. CRC press; 2012.
Penone C, Davidson AD, Shoemaker KT, Di Marco M, Rondinini C, Brooks TM, Costa GC. Imputation of missing data in life history trait datasets: which approach performs the best? Methods in Ecology and Evolution 2014; 5(9): 961-970.
Moorthy K, Saberi Mohama M, Deris S. A review on missing value imputation algorithms for microarray gene expression data. Current Bioinformatics 2014; 9(1): 18-22.
Bell ML, Fiero M, Horton NJ, Hsu CH. Handling missing data in RCTs; a review of the top medical journals. BMC medical research methodology 2014; 14(1): 118.
Li P, Stuart EA, Allison DB. Multiple imputation: a flexible tool for handling missing data. Journal of the American Medical Association 2015; 314(18): 1966-1967.
Pedersen AB, Mikkelsen EM, Cronin-Fenton D, Kristensen NR, Pham TM, Pedersen L, Petersen I. Missing data and multiple imputation in clinical epidemiological research. Clinical Epidemiology 2017; 9: 157-166.
Manly CA, Wells RS. Reporting the use of multiple imputation for missing data in higher education research. Research in Higher Education 2015; 56(4): 397-409.
Lall R. How multiple imputation makes a difference. Political Analysis 2016; 24(4): 414-433.
Kim HJ, Reiter JP, Wang Q, Cox LH, Karr AF. Multiple imputation of missing or faulty values under linear constraints. Journal of Business & Economic Statistics 2014; 32(3): 375-386.
White TK, Reiter JP, Petrin A. Imputation in US manufacturing data and its implications for productivity dispersion. Review of Economics and Statistics 2018; 100(3): 502-509.
Vroomen JM, Eekhout I, Dijkgraaf MG, van Hout H, de Rooij SE, Heymans MW, Bosmans JE. Multiple imputation strategies for zero-inflated cost data in economic evaluations: which method works best? The European Journal of Health Economics 2016; 17(8): 939-950.
van Buuren S, Groothuis-Oudshoorn K. MICE: Multivariate Imputation by Chained Equations in R. Journal of Statistical Software 2011; 45(3): 1-67.
The Russia Longitudinal Monitoring Survey (RLMS) [Online]. [cited 2019 Aug 10]. Available from: http://www.cpc.unc.edu/projects/rlms
Zangieva IK. Problema propuskov v sotsiologicheskikh dannykh: smysl i podkhody k resheniyu [The problem of missing values in sociological data: essence and solution methods] Sotsiologiya: metodologiya, metody, matematicheskoe modelirovanie 2011; 33: 28-56. (In Russian)
Little RJA, Rubin DB. Statistical analysis with missing data. John Wiley & Sons; 2014. 408 p.
Rubin DB. Inference and missing data. Biometrika 1976; 63(3): 581-592.
Hox JJ, Moerbeek M, Van de Schoot R. Multilevel analysis: Techniques and applications. Routledge; 2017. 348 p.
Gelman A, Hill J. Data analysis using regression and multilevel/hierarchical models. Cambridge University Press; 2006.
Elhorst JP. Specification and estimation of spatial panel data models. International regional science review 2003; 26(3): 244-268.

Дата поступления: 01.11.2019.

Приложение 1

№

Название переменной

Описание переменной

Социально-демографические характеристики

1 – Центральный 2 – Северо-Западный 3 – Южный (2008-2009 г.г.) и Южный и Северо-Кавказский округа (с 2010 г.) 4 – Приволжский 5 – Уральский 6 – Сибирский 7 – Дальневосточный

Пол

Пол (качественная переменная) 1 – мужской, 0 – женский

Уровень образования

Законченное образование (качественная переменная)

1 – окончил 0 – 6 классов

2 – незаконченное среднее образование (7 – 8 кл)

3 – незаконченное среднее образование (7 – 8 кл) + что-то еще

4 – законченное среднее образование

5 – законченное среднее специальное образование

6 – законченное высшее образование и выше

Высокий уровень образования

Бинарная переменная

1 – если уровень образования = 6 или уровень образования = 5

0 – иначе

Семейное положение

Семейное положение (качественная переменная)

1 – респондент живет не один

0 – респондент живет один

Количество детей

Число детей

Физиологическое и эмоциональное состояние респондентов

Индекс массы тела

Самооценка здоровья

Самооценка здоровья (качественная переменная)

1 -	очень хорошее
2 -	Хорошее
3 -	среднее, не хорошее, но и не плохое
4 -	Плохое
5 -	совсем плохое

Плохое здоровье

1 -	если самооценка здоровья = 5 или самооценка здоровья=4
0 -	Иначе

Курение

Наличие вредных привычек: курение (качественная переменная)

1 - респондент курит

0 - респондент не курит

Употребление алкоголя

Наличие вредных привычек: употребление алкоголя; в качестве переменной взята частота употребления алкогольных напитков в течение последних 30 дней, предшествующих опросу

Удовлетворенность жизнью

Уровень удовлетворенности жизнью (качественная переменная)

1 - полностью удовлетворены

2 - скорее удовлетворены

3 - и да, и нет

4 - скорее не удовлетворены

5 - совсем не удовлетворены

Высокий уровень удовлетворенности жизнью

1 -	если уровень удовлетворенности жизнью = 1 или уровень удовлетворенности жизнью = 2
0 -	Иначе

Удовлетворенность работой

Уровень удовлетворенности работой (качественная переменная)

1 - полностью удовлетворены

2 - скорее удовлетворены

3 - и да, и нет

4 - скорее не удовлетворены

5 - совсем не удовлетворены

Высокий уровень удовлетворенности работой

1 -	если уровень удовлетворенности работой = 1 или уровень удовлетворенности работой =2
0 -	Иначе

Социально-экономический статус

Логарифм среднегодового дохода

Логарифм среднегодового дохода (доход измеряется в рублях)

Средняя продолжительность рабочей недели

Средняя продолжительность рабочей недели (зависимая переменная) (в часах)

Экологическое состояние региона проживания

Выбросы в атмосферу

Выбросы в атмосферу загрязняющих веществ, отходящих от стационарных источников (в тыс. тонн)

Загрязнение воды

Объем загрязненных сточных вод (в млн. куб. м.)

Ваш комментарий будет первым

Добавить комментарий

Пожалуйста оставляйте комментарии только по теме. Вы можете оставить свой комментарий любым браузером кроме Internet Explorer старше 6.0
Имя:
E-mail
Комментарий:
Код:*

Последнее обновление ( 15.04.2020 г. )

« Пред.		След. »

Вернуться

Главное меню

Экспорт новостей

Журнал в базах данных

GoogleАкадемия