Метод. Московский ежегодник трудов из обществоведческих дисциплин. Выпуск 4: Поверх методологических границ
Шрифт:
В работе 2007 г. Р. Инглхар и К. Велзель предположили, что для установления и развития демократического режима необходим осознанный общественный запрос. Важно, чтобы демократия воспринималась не как инструмент достижения экономического процветания нации, а как способ обеспечения политических прав и свобод от принуждения и дискриминации. По мнению авторов, свобода объединяет такие категории, как «Равенство против патриархального уклада», «Толерантность против подчинения традиционным нормам», «Автономия против авторитета», «Выражение против спокойствия и обеспеченности». Для конструирования индекса ценности свободы были привлечены 14 переменных из «Всемирного исследования ценностей» в 90 странах. По каждому вопросу
Другим важным инструментом многомерного статистического анализа является кластерный анализ. Его основное назначение состоит в разбиении множества исследуемых признаков на однородные в определенном смысле группы, когда объекты внутри одного кластера более похожи друг на друга, чем на объекты из других кластеров [Айвазян, Мхитарян, 2001, с. 484].
Методы кластерного анализа актуальны, когда возникает задача классификации в признаковом пространстве большой размерности, что естественно, ведь если признаков, которыми описываются объекты, всего два, то получить группировку можно с помощью визуализации данных на диаграмме рассеяния.
Являясь описательным методом статистики, кластерный анализ позволяет проанализировать внутренние связи между единицами в группах, он может быть особенно полезен при исследовании малоизученных явлений. С его помощью можно описать большой объем информации, выявить сходную динамику или структуру распределения показателей.
Существенным достоинством метода является отсутствие каких-либо допущений о характере распределения данных и априорной информации о числе групп. Все, что необходимо для реализации кластерного анализа – задать меру схожести объектов и правило объединения в кластеры. Несмотря на то, что многие методы кластерного анализа довольно просты, их активное использование стало возможным только с появлением необходимых вычислительных мощностей, потому что эффективное решение задачи поиска кластеров требует большого числа арифметических действий [Айвазян, Мхитарян, 2001, с. 484].
Различаются иерархические и итеративные методы кластеризации. Агломеративные иерархические методы предполагают последовательное объединение объектов в группы и групп между собой до тех пор, пока все объекты не окажутся в одном кластере. Дивизивные, наоборот, построены на последовательном разбиении одного кластера со всеми объектами на более малочисленные группы.
К итеративным методам кластерного анализа относится метод k– средних. В отличие от иерархических методов, он требует предварительного определения количества кластеров, которые будут сформированы. Смысл процедуры состоит в итерационном уточнении «центров тяжести» искомых классов и классификации наблюдений в соответствии с расстоянием до ближайшего «эталонного» центра. Но итеративные методы значительно более трудоемки с точки зрения вычислений и менее популярны.
Мерой схожести (однородности) обычно принимается величина, обратная расстоянию между объектами, ведь если объекты в многомерном пространстве находятся рядом, то разумно предположить, что они похожи друг на друга. Возможных мер расстояния между точками (объектами) i и j довольно много, вот только некоторые из них:
1) Евклидово,
2) квадрат Евклидова
3) расстояние
где xi (1), xi (2), .., xi (m) – m количественных признаков, которыми описываются объекты.
Если признаки измерены на категориальном уровне, тогда мерами схожести будут такие метрики, которые основаны на совпадении или несовпадении значений по каждому признаку [Ким, Мьюллер, Клекка, 1989, с. 161].
После объединения наиболее близких друг к другу точек в один кластер, в иерархических методах необходимо задать способ агломерации – правило сравнения и объединения единичных точек к кластерам или двух кластеров в один более крупный. Для этого используются метод ближнего соседа, метод дальнего соседа, центроидный метод и метод средней связи. По результатам некоторых исследований, лучшие результаты дают метод Варда и метод средней связи [Gore, 2000, p. 315].
Кластерный анализ позволяет получить относительно объективную классификацию единиц наблюдения, так как является формальным методом, но в зависимости от способа агломерации и смены метрики он может выдавать различные по составу группы при одинаковом числе кластеров. В каждом отдельном случае самым важным остается качество содержательной интерпретации полученных совокупностей объектов, но все-таки некоторые конвенциональные правила комбинации метрик и правил агломерации существуют [Gore, 2000, p. 309–312].
Совокупность описанных методов анализа данных позволяет решать наиболее типичные задачи политического анализа (а возможно, и социальных наук вообще) на основе количественных данных. Тем не менее за рамками нашего обзора остался широкий класс методов, изучение и описание которого требует достаточно свободного владения понятиями теории вероятностей и математической статистики, а также алгебраической геометрии. Речь идет, в первую очередь, о байесовском подходе к анализу данных, непараметрических методах, методах анализа пространственно-временных данных и временных рядов, а также нелинейных вариантах метода главных компонент, основанных на теории нелинейных многообразий.
Все описанные и оставленные без обзора методы прикладной статистики, однако, требуют для успешности использования привлечения способности исследователя интерпретировать как саму изучаемую реальность, так и полученные в ходе математической обработки результаты. Семиотика потенциально способна оказать практикующим исследователям большую помощь в этой области. Надеемся, что продемонстрированная в этом обзоре широта приложений статистики привлечет внимание специалистов по семиотике к прикладной статистике и будет способствовать сближению этих областей знания.
Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики: Учебник для вузов. – М.: ЮНИТИ, 2001. – 1022 с.
Ахременко А.С. Политический анализ и прогнозирование. – М.: Гардарики, 2006. – 333 с.
Аптон Г. Анализ таблиц сопряженности / Пер. с англ. и пред. Ю.П. Адлера. – М.: Финансы и статистика, 1982. – 144 с.
Ким Дж.-О., Мьюллер Ч.У., Клекка У.Р. Факторный, дискриминантный и кластерный анализ. – М.: Финансы и статистика, 1989. – 215 с.