Многомерный статистический анализ и опыт его использования в медико-демографических исследованиях



Скачать 120.37 Kb.
Дата 01.10.2016
Размер 120.37 Kb.
УДК 311:614:314.1
многомерный статистический анализ и опыт его использования
в медико-демографических исследованиях

Григорьев Ю.А., Баран О.И.
Научно-исследовательский институт комплексных проблем гигиены
и профессиональных заболеваний, Новокузнецк
Резюме. Число исследований с использованием многомерного статистического анализа сильно выросло в науках, связанных с анализом эмпирических данных, в том числе и в медицинской демографии. Многомерный статистический анализ был использован нами в моделях влияния атмосферных загрязнений на жителей города с учетом лага воздействия, в построении многомерной территориальной типологии продолжительности жизни населения.

Ключевые слова: многомерный статистический анализ, атмосферные загрязнения, территориальная типология продолжительности жизни.
MULTIVARIATE STATISTICAL ANALYSIS AND EXPERIENCE OF ITS USAGE
IN MEDICAL AND DEMOGRAPHIC RESEARCHES

Grigoryev Yu.A., Baran O.I.
Research Institute for Complex Problems of Hygiene and Occupational Diseases, Novokuznetsk
Summary. The number of the studies using multivariate statistical analysis has grown in the sciences related to the analysis of empirical data including medical demography. Multivariate statistical analysis was used by us in the models of the impact of atmospheric pollution on the residents of the city taking account of effect lag, in building a multidimensional territorial typology of life expectancy of the population.

Key words: multivariate statistical analysis, atmospheric pollution, territorial typology of life expectancy.
В последние десятилетия выявилась тенденция резкого роста числа исследований, в которых обработку данных проводили на основе методов многомерного статистического анализа (МСА). Эта тенденция четко прослеживается в науках, связанных с анализом эмпирических данных [2, 3, 19, 23-26, 28-31]. В многомерном статистическом анализе образовались разделы, которые не изолированы, а проникают и переходят один в другой. Все они, закономерно обусловленные развитием математико-статистических методов и практикой их применения, несут в себе новые богатые возможности для решения большого числа фундаментальных и прикладных задач.

Многомерный статистический анализ включает набор различных математико-статистических методов, ориентированных на исследование статистических совокупностей, в которых объекты характеризуются набором признаков (такие объекты принято называть многомерными). Существуют разные мнения о перечне методов МСА. Наиболее часто в МСА включают методы многомерной классификации и распознавания образов, многомерного факторного анализа, множественной регрессии, многомерного шкалирования (иногда включают и дисперсионный анализ). В основном перечисленные методы возникли в последние десятилетия как реакция потребности науки, где многомерность описания изучаемых объектов является характерной чертой большинства исследований. Методы МСА позволяют определить структуру как совокупности объектов, так и набора признаков, выявить группы «однородных» объектов и обобщенные факторы их развития, а также оценить значение и влияние различных факторов, воздействующих на какой-либо существенный, результирующий признак. Практическое использование методов МСА стало возможным в связи с широким распространением вычислительной техники и пакетов прикладных статистических программ (STATISTICA, SAS, SPSS и другие).



Рассмотрим самые общие характеристики некоторых методов МСА (множественная регрессия, факторный анализ, автоматическая классификация и распознавание образов).

Множественная регрессия. Термин «множественная регрессия» объясняется тем, что анализу подвергается зависимость одного признака (результирующего) от набора независимых (факторных) признаков. Разделение признаков на результирующие и факторные осуществляется исследователем на основе содержательных представлений об изучаемом явлении. Для корректного использования регрессионного анализа требуется выполнение некоторых условий. Факторные признаки должны быть некоррелированы (отсутствие мультиколлинеарности). Результирующий признак должен иметь постоянную дисперсию, не зависящую от факторных признаков. Число объектов должно превышать число признаков в несколько раз, чтобы параметры уравнения множественной регрессии были статистически надежными. Существенные нарушения этих условий приводят к некорректному использованию моделей множественной регрессии. При построении регрессионных моделей возникает вопрос о виде функциональной зависимости, характеризующей взаимосвязи между результирующим признаком и несколькими признаками-факторами. Выбор формы связи должен основываться на качественном, теоретическом и логическом анализе изучаемых явлений [1, 2, 23, 24, 28].

Факторный анализ. Как рассмотрено выше, при использовании регрессионного анализа акцент делается на выявление веса каждого факторного признака, воздействующего на результат, на количественную оценку очищенного воздействия данного фактора при элиминации остальных. Но существует и другой подход к исследованию структуры взаимодействия признаков, который развивается в рамках факторного анализа. Этот подход основан на представлении о комплексном характере изучаемого явления, что выражается, в частности, во взаимосвязях и взаимообусловленности отдельных признаков. В факторном анализе внимание уделяется исследованию «внутренних» причин, формирующих специфику изучаемого явления, выявлению обобщенных факторов, которые просматриваются за соответствующими конкретными показателями. Факторный анализ не требует априорного разделения признаков на зависимые и независимые, так как все признаки в этом виде МСА рассматриваются как равноправные. Цель факторного анализа – сконцентрировать исходную информацию, выражая большое число рассматриваемых признаков через меньшее число более емких характеристик явления, которые при этом не поддаются непосредственному измерению. Предполагается, что наиболее емкие характеристики окажутся и наиболее существенными, определяющими. Укажем два основных подхода к использованию факторного анализа: 1) поисковый, изыскательный подход, ориентированный на первую стадию исследования сложного явления, поиск гипотез о его структуре; 2) направленный факторный анализ для подтверждения уже выдвинутой теоретической гипотезы. Направленный факторный анализ применяется на более продвинутых стадиях исследования. Одна из задач этой стадии – определение размерности изучаемого явления, т.е. нахождение минимального числа существенных факторов, с достаточной полнотой описывающих изучаемое явление. Факторный анализ широко используется при решении задач типологии [1, 2, 28, 30].

Автоматическая классификация и распознавание образов. Современный уровень развития методов МСА и вычислительной техники позволяет осуществлять классификацию объектов на широкой основе, с учетом всех существенных структурно-типологических признаков и характера их распределения в многомерном пространстве. Существующие методы построения классификации объектов принципиально можно разделить на две категории. Методы первой группы связаны с задачей «узнавания», идентификации объектов. Они получили название методов распознавания образов. Смысл распознавания заключается в том, чтобы любой предъявленный объект с наименьшей вероятностью ошибки был отнесен вычислительной системой к одному из заранее сформированных классов. Здесь вычислительной системе сначала предъявляют «обучающую последовательность» объектов, а затем (после обучения) ЭВМ должна распознать, к каким классам относятся новые объекты из изучаемой совокупности.

При более общем подходе к классификации включается не только отнесение объектов к одному из выделенных классов, но и одновременное формирование самих «образов», число которых априорно не дано. При отсутствии обучающей последовательности такая классификация производится на основе задачи собрать в одну группу в некотором смысле схожие объекты. При этом объекты из разных групп (классов) должны быть по возможности несхожими. Именно такие методы получили название методов распознавания образов «без учителя», кластерного анализа [1, 2, 4, 5, 20, 28].

Использование методов многомерной классификации позволяет выявить группы однородных объектов, заданных в многомерном пространстве признаков, а также получить статистические характеристики этих классов как в терминах исходных признаков, так и в терминах обобщенных факторов. Основные методы МСА (множественная регрессия, факторный анализ, автоматическая классификация и распознавание образов, многомерное шкалирование) рассматриваются в рамках новой отрасли прикладной математики, называемой «анализ данных». Проблема состоит в том, что под методами математической статистики всегда было принято понимать лишь те методы статистической обработки исходных данных, которые основаны на вероятностной природе этих данных. На основе этих моделей можно получить оценки значимости, доверительные интервалы. Но с 60-х годов XX века активно развивается весьма широкий и актуальный класс методов статистической обработки исходной информации, которые не опираются на вероятностную природу анализируемых данных.

Метод анализа данных использует формально те же статистические приемы обработки исходной информации, но он предназначен больше для генерирования новых гипотез, способствующих структуризации изучаемого процесса, а не для строгой (в статистическом смысле) отбраковки неудачных вариантов модели. Важным классом математико-статистических моделей являются регрессионные, в которых качественная (содержательная, априорная) информация обычно используется для обоснования формы уравнений регрессии, а результаты моделирования – для подтверждения правильности теории либо для выявления ее неточности или неполноты [27]. Так, для исследования медико-демографических процессов могут использоваться два типа регрессионных моделей: статические и динамические. Идентификация статических моделей производится с использованием так называемых «срезовых данных», что ограничивает их возможности по выявлению особых «динамических» свойств медико-демографических процессов, где очень часто эффекты (изменение показателей здоровья населения) проявляются не сразу, а спустя некоторое время. В отличие от статических, в динамических моделях используются средства, позволяющие выявить наличие эффектов запаздывания, но для этого приходится рассматривать уже не «срезовые» данные, а совокупности временных рядов изменения интересующих исследователя показателей. Такие модели в исследовательской практике встречаются очень редко. Это связано с тем, что методы учета эффекта запаздывания, разработанные вначале применительно к техническим, а затем и к экономическим системам, являются весьма сложными для использования в медико-демографическом моделировании, они не всегда применимы без определенной модификации соответствующих алгоритмов [13, 15].

Для решения задач медико-демографического моделирования (например, влияние множества вредных факторов окружающей среды на смертность населения) нами еще в 80-е годы были использованы следующие процедуры. 1) Выделение «факторов выхода» процесса с помощью Р-техники метода главных компонент. 2) Построение регрессионных моделей зависимости выходных переменных от «факторов выхода». 3) Выделение факторов «лаговых воздействий» с помощью использования О-техники главных компонент, применяемой для факторизации матрицы корреляций между парами интервалов времени и рассчитанной по массиву входных переменных. 4) Построение регрессионных моделей для прогноза влияния факторов «лаговых воздействий» на «факторы выхода». 5) Пересчет уравнений регрессии на главных компонентах в искомые уравнения регрессии, характеризующие динамические зависимости характеристик выхода от входных переменных. 6) Расчет и интерпретация коэффициентов эластичности полученных зависимостей [11, 13, 15].

Можно считать целесообразным применение указанных подходов для построения количественных моделей медико-демографических процессов в тех случаях, когда удовлетворительные теоретические модели отсутствуют либо являются достаточно сложными для аналитического исследования.

В настоящее время разработаны многие десятки различных алгоритмов, которые реализуют многомерную классификацию. Они основаны на разных гипотезах о характере распределения объектов в многомерном пространстве признаков, на различных математических процедурах. Построенную с помощью этих методов многомерную группировку объектов можно рассматривать в типологическом аспекте, если содержательный анализ полученных результатов позволяет указать качественные и количественные особенности выделенных групп [4, 5]. Многомерный статистический анализ был использован нами в моделях влияния атмосферных загрязнений (с учетом лага воздействия) на безвозвратные потери населения в крупном промышленном центре [11-13, 15, 21, 22], в построении многомерной территориальной типологии продолжительности жизни населения Российской Федерации и Сибири [6-10, 14, 18], в изучении влияния уровня образования на смертность населения [16, 17].

Для реализации МСА используются стандартные вычислительные процедуры в пакетах прикладных программ (STATISTICA, SAS, SPSS и другие), которые ежегодно обновляются и совершенствуются.


СПИСОК ЛИТЕРАТУРЫ

1. Айвазян С.А., Мхитарян В.С. Прикладная статистика в задачах и упражнениях. М.: ЮНИТИ-ДАНА, 2001.

2. Айвазян С.А., Бежаева З.И., Староверов О.В. Классификация многомерных наблюдений. М.: Статистика, 1974.

3. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: исследование зависимостей. М.: Финансы и статистика, 1985.

4. Баран О.И., Григорьев Ю.А., Жилина Н.М. Алгоритмы и критерии качества кластеризации // Общественное здоровье и здравоохранение / материалы XLV научно-практической конференции с международным участием «Гигиена, организация здравоохранения и профпатология» и семинара «Актуальные проблемы современной профпатологии». Кемерово: ООО «Примула», 2010. С. 21-26.

5. Баран О.И., Григорьев Ю.А., Мингазов И.Ф. Кластерный анализ и его приложения (методы, меры сходства и свойства кластеров) // Общественное здоровье и здравоохранение / материалы XLV научно-практической конференции с международным участием «Гигиена, организация здравоохранения и профпатология» и семинара «Актуальные проблемы современной профпатологии». Кемерово: ООО «Примула», 2010. С. 26-30.

6. Григорьев Ю.А. Медико-демографические процессы на востоке РСФСР. К стратегии развития охраны здоровья населения // Бюллетень Сибирского отделения АМН СССР. 1991. № 4. С. 8-14.

7. Григорьев Ю.А. Многомерная территориальная типология продолжительности жизни населения (методические и прикладные задачи) / учебное пособие. Новокузнецк: ГОУ ДПО «НГИУВ» Росздрава, 2011.

8. Григорьев Ю.А. От предикторов к построению территориальной типологии продолжительности жизни населения // Вестник Кузбасского научного центра. 2014. Вып. 19. С. 24-26.

9. Григорьев Ю.А. Поиск и апробация предикторов территориальной типологии смертности и продолжительности жизни населения // Общественное здоровье и здравоохранение / материалы XLV научно-практической конференции с международным участием «Гигиена, организация здравоохранения и профпатология» и семинара «Актуальные проблемы современной профпатологии». Кемерово: ООО «Примула», 2010. С. 63-67.

10. Григорьев Ю.А., Ермаков С.П. Некоторые проблемы типологии и классификации многомерных наблюдений // Общественное здоровье и здравоохранение / материалы XLV научно-практической конференции с международным участием «Гигиена, организация здравоохранения и профпатология» и семинара «Актуальные проблемы современной профпатологии». Кемерово: ООО «Примула», 2010. С. 67-72.

11. Григорьев Ю.А., Ермаков С.П. Некоторые результаты изучения влияния атмосферных загрязнений на смертность населения // Медико-демографические исследования / сборник статей. М., 1982. С. 98-102.

12. Григорьев Ю.А., Ермаков С.П. Об одном подходе к многофакторному моделированию медико-демографических процессов // Итоги и перспективы деятельности по созданию и реализации комплексных программ «Здоровье» / материалы региональной научно-практической конференции. Том 1. Новокузнецк, 1989. С. 22-24.

13. Григорьев Ю.А., Ермаков С.П. Элементы многомерного статистического анализа в медико-демографических исследованиях // Демографическое развитие Сибири. Прикладной и теоретический аспекты исследования / сборник статей. Новосибирск, 1987. С. 41-55.

14. Григорьев Ю.А., Дмитриев В.И., Коверный И.И. Особенности смертности и продолжительности жизни городского населения трудоспособного возраста в типичных регионах РСФСР // Демографические проблемы здоровья в Сибири / сборник статей. Новосибирск, 1988. С. 30-63.

15. Григорьев Ю.А., Ермаков С.П., Комаров Ю.М. Регрессионные модели влияния атмосферных загрязнений на смертность населения // Бюллетень Сибирского отделения АМН СССР. 1983. № 1. С. 24-30.

16. Григорьев Ю.А., Ермаков С.П., Мирзоев А.А. Количественное определение взаимосвязи между уровнем образования и смертности трудоспособного населения // Здоровье населения в системе мер демографической политики / сборник статей. М., 1984. С. 137-140.

17. Григорьев Ю.А., Ермаков С.П., Мирзоев А.А. Опыт комплексного применения методов многомерного анализа в социально-гигиенических и медико-демографических исследованиях // Комплексное применение математических методов в социологическом исследовании / сборник статей. М., 1983. С. 18-27.

18. Дмитриев В.И., Ермаков С.П., Коверный И.И., Григорьев Ю.А. Методические проблемы территориальной типологии продолжительности жизни населения // Бюллетень Сибирского отделения АМН СССР. 1991. № 4. С. 25-28.

19. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы. М.: Финансы и статистика, 2003.

20. Елисеева И.И., Рукавишников В.О. Группировка, корреляция, распознавание образов (статистические методы классификации и измерения связей). М.: Статистика, 1977.

21. Ермаков С.П., Григорьев Ю.А. Применение методов многомерного статистического анализа для моделирования медико-биологических процессов, характеризующихся выраженными лагами запаздывания в воздействии входных переменных на результирующие показатели // Управление системами здравоохранения / тезисы докладов международного совещания. М., 1982. С. 71-73.

22. Ермаков С.П., Григорьев Ю.А., Елескин В.В., Комаров Ю.М., Кадурова Н.М. Методические подходы к моделированию медико-демографических процессов // Медико-демографические исследования / сборник статей. М., 1982. С. 24-29.

23. Кендалл М.Дж., Стьюарт А. Многомерный статистический анализ и временные ряды / пер. с англ. М., 1976.

24. Кендалл М.Дж., Стьюарт А. Статистические выводы и связи / пер. с англ. М.: Наука, 1973.

25. Миркин Б.Г. Группировка в социально-экономических исследованиях: методы построения и анализа. М.: Финансы и статистика, 1985.

26. Многомерный статистический анализ и эконометрика / труды VI Международной школы-семинара. М.: ЦЭМИ РАН, 2004.

27. Мостеллер Ф., Тьюки Дж. Анализ данных и статистика / пер. с англ. М.: Финансы и статистика, 1982.

28. Мятлев В.Д., Панченко Л.А., Терехин А.Т. Анализ многомерных данных. М.: МАКС-Пресс, 2007.

29. Розова С.С. Классификационная проблема в современной науке. Новосибирск: Наука, 1986.

30. Симчера В.М. Методы многомерного анализа статистических данных. М.: Финансы и статистика, 2008.

31. Татарова Г.Г. Основы типологического анализа в социологических исследованиях. М.: Высшее образование и наука, 2007.






База данных защищена авторским правом ©infoeto.ru 2022
обратиться к администрации
Как написать курсовую работу | Как написать хороший реферат
    Главная страница