Чтение онлайн

на главную - закладки

Жанры

Метод. Московский ежегодник трудов из обществоведческих дисциплин. Выпуск 4: Поверх методологических границ
Шрифт:

К мерам центральной тенденции относятся среднее арифметическое, медиана и мода. Среднее арифметическое является точечной оценкой математического ожидания E (x) (среднего значения в генеральной совокупности), медиана – значение показателя, меньше которого располагаются 50% наблюдений 35 , мода – наиболее распространенное значение, способ оценить среднее для категориальных переменных.

Дисперсия Var (x) – мера разброса относительно среднего. Она рассчитывается как усредненная сумма квадратов отклонений от среднего. Квадратный корень из дисперсии называется стандартным отклонением и тоже является мерой разброса, но имеет преимущество перед дисперсией поскольку измеряется в тех же самых единицах, что и сам признак, а дисперсия – в

единицах в квадрате.

35

К примеру, при изучении душевого дохода адекватнее использовать медиану, потому что большая часть населения получает доходы ниже среднего, однако есть немногочисленные группы населения, получающие очень высокие доходы, что завышает значение среднего арифметического.

Определение типа шкалы и получение числовых, а также графических характеристик изучаемых признаков составляют подготовительный этап анализа данных. Исходя из полученной информации, требуется определить корректный метод для содержательной задачи, составляющей интерес исследователя: выявления взаимосвязи признаков, установления причинно-следственной связи, прогнозирования, классификации, снижения размерности и пр.

Задачу выявления связи между двумя номинальными признаками решает анализ таблиц сопряженности признаков, являющихся результатом их перекрестной классификации. Самая простая таблица сопряженности – это таблица 2x2, в которой строкам соответствуют два значения признака А, а столбцам – два значения признака В. В каждой ячейке таблицы указывается число объектов, для которого А и В принимают соответствующие строке и столбцу значения. Как правило, количество категорий признаков невелико, поэтому для включения в анализ непрерывного признака необходимо разбить его на категории. Например, можно создать возрастные группы или группы по доходу. Тогда исследователь сталкивается с необходимостью задания пороговых значений, которые зачастую во многом произвольны.

Вывод о наличии или отсутствии связи делается на основании проверки статистической гипотезы о независимости признаков. Самым простым из возможных критериев проверки, пожалуй, является 2 («хи-квадрат») К. Пирсона. На основе разницы между ожидаемыми при независимости признаков и наблюдаемыми частотами в каждой ячейке рассчитывается значение статистики хи-квадрат, и на его основе можно сделать вывод о статистической независимости изучаемых признаков или же, наоборот, о наличии статистически значимой связи. Однако существенное ограничение: критерий хи-квадрат Пирсона некорректно использовать, если среди ячеек таблицы сопряженности есть такая, ожидаемое значение в которой меньше пяти. Это ограничение связано с тем, что распределение хи-квадрат, на основе которого проверяется гипотеза, является непрерывным, в то время как одноименная статистика, высчитываемая на основе выборки, явно принимает конечное число значений. В подобной ситуации рекомендуется использовать точный критерий Фишера (о других критериях см. подробнее [Аптон, 1982, с. 16–40]).

Вообще, диапазон возможных критериев для анализа таблиц сопряженности достаточно широк. Так, V-критерий Крамера также использует статистику хи-квадрат, но является мерой связи между признаками и лежит в границах от 0 до 1. Лямбда-критерии Гудмана и Краскела позволяют ответить на вопрос о силе связи между номинальными признаками, основываясь на предсказании категории одного признака при известной категории другого. Тау-критерии являются вероятностными мерами верной классификации, но избавлены от некоторых недостатков лямбда-критериев. Гамма Гудмана и Краскела отвечает на вопрос о связи порядковых признаков [см. подробнее: Аптон, 1982].

Исследование связи номинальных признаков – типичная социологическая задача. В политологии же чаще наблюдается необходимость в исследовании взаимосвязи признаков, измеренных в непрерывной или порядковой шкале. Для этого обычно применяется корреляционный анализ. Он позволяет установить наличие и силу статистической линейной взаимосвязи двух и более показателей, а также ее направление (положительное или отрицательное). Оценкой истинной степени линейной связи между признаками является коэффициент корреляции, рассчитанный по выборке. Он принимает значения от -1 до 1, и чем больше абсолютное значение коэффициента, тем сильнее взаимосвязь. Значения, близкие к нулю, говорят о наличии слабой связи или ее отсутствии вовсе. Напомним, что коэффициент корреляции не интерпретируется в терминах каузальной связи.

Если анализируемые признаки x и y измерены в количественной шкале, то по выборке рассчитывается коэффициент корреляции r К. Пирсона. К минусам коэффициента Пирсона можно отнести его неустойчивость к нетипичным наблюдениям (статистическим выбросам),

а также неспособность выявить нелинейную взаимосвязь. Этот недостаток преодолевают коэффициенты ранговой корреляции: Ч.Э. Спирмена и М.Ж. Кендалла . Они улавливают нелинейную монотонную связь, возрастающую или убывающую, и более устойчивы к нетипичным наблюдениям, поскольку «работают» с рангами единиц наблюдения.

Подчеркнем, что коэффициент корреляции является лишь выборочной оценкой теоретической корреляции (корреляции между признаками в генеральной совокупности), поэтому при работе с малыми выборками недостаточно знать значение коэффициента – требуется также проверить на его основе статистическую гипотезу о том, что корреляция генеральной совокупности равна нулю.

Общей проблемой коэффициентов корреляции является возможность выявления так называемой ложной корреляции (spurious correlation), которая обнаруживается, если каждый из них по отдельности связан с третьей, неучтенной в анализе, переменной. Такая корреляция может в большей или меньшей степени поддаваться содержательной интерпретации, но именно влияние третьей переменной на первые две обусловливает установленную связь. Примером такой ситуации может быть отрицательная корреляция между объемами продаж мороженого и степенью твердости асфальтового покрытия. На самом деле, на оба показателя влияет погода, точнее – температура воздуха [Кимбл, 1982, с. 196]. На ложную корреляцию можно смотреть и иначе: это явление возникает тогда, когда анализу подвергаются чрезвычайно разнородные объекты. В таком случае взаимосвязь между какими-то признаками может возникнуть как эффект разнородности.

К сожалению, в социальных науках в большинстве ситуаций нет понимания того, как устроен порождающий данные процесс, какова механика формирования числового значения показателя. Это делает угрозу ложных корреляций чрезвычайно серьезной и обусловливает особое внимание исследователей к другому инструменту изучения связи признаков – регрессии.

Регрессионный анализ позволяет описать направление и вид постулируемой статистической взаимосвязи между объясняемой переменной («отклика») и одной или несколькими объясняющими переменными на достаточно большой выборке. Это может быть как пространственная (кросс-секционная) выборка, так и временной ряд или пространственно-временная выборка. Результатом регрессионного анализа является доля объясненной изменчивости «отклика» (коэффициент детерминации R2) и оценки степени связи предикторов с «откликом» (регрессионный коэффициент).

Линейная регрессионная модель с одной объясняющей переменной (парная регрессия) может быть записана следующим образом:

yi = 0 + 1x1 + i,

где индексом i обозначается номер объекта, yi – объясняемая переменная; xiпервая объясняющая переменная, измеренная на i объекте; i – случайный член (ошибка регрессионной модели, отражающая влияние факторов, неучтенных в рамках имеющейся спецификации, а также ошибки измерения признаков); коэффициент 0 – константа – среднее значение зависимой переменной в том случае, если предиктор принимает значение ноль (поэтому константа не всегда имеет содержательную интерпретацию). Коэффициент 1 показывает среднюю разницу между значением «отклика» и средним значением у тех объектов, у которых значение независимой переменной больше среднего на единицу. В тех случаях, когда исследователь готов постулировать причинно-следственную связь, говорят, что 1 показывает, как в среднем изменится значение «отклика» при росте значения объясняющей переменной x на единицу.

В большинстве случаев в регрессиях, особенно построенных по пространственным выборкам, трудно (если вообще возможно) говорить об отсутствии неучтенных переменных, которые оказывают значимое влияние на зависимую переменную, а также каким-либо образом связаны с другими объясняющими переменными. Возникающее при их наличии смещение приводит к неверной оценке регрессионных коэффициентов, причем направление и размер смещения заранее не известны исследователю. Учесть в анализе такой набор факторов, чтобы объекты анализа (индивиды, фирмы, государства) стали сопоставимыми, а переменные, включенные в регрессионное уравнение, не транслировали влияние третьих факторов, не включенных в спецификацию, призвана множественная регрессия.

Популярные книги

Барон меняет правила

Ренгач Евгений
2. Закон сильного
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Барон меняет правила

Последняя Арена 9

Греков Сергей
9. Последняя Арена
Фантастика:
рпг
постапокалипсис
5.00
рейтинг книги
Последняя Арена 9

Инквизитор Тьмы

Шмаков Алексей Семенович
1. Инквизитор Тьмы
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Инквизитор Тьмы

Дарующая счастье

Рем Терин
Любовные романы:
любовно-фантастические романы
6.96
рейтинг книги
Дарующая счастье

Барон Дубов

Карелин Сергей Витальевич
1. Его Дубейшество
Фантастика:
юмористическое фэнтези
аниме
сказочная фантастика
фэнтези
5.00
рейтинг книги
Барон Дубов

Бестужев. Служба Государевой Безопасности. Книга вторая

Измайлов Сергей
2. Граф Бестужев
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Бестужев. Служба Государевой Безопасности. Книга вторая

Последняя Арена 11

Греков Сергей
11. Последняя Арена
Фантастика:
фэнтези
боевая фантастика
рпг
5.00
рейтинг книги
Последняя Арена 11

Последний Паладин. Том 5

Саваровский Роман
5. Путь Паладина
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Последний Паладин. Том 5

Первый среди равных

Бор Жорж
1. Первый среди Равных
Фантастика:
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Первый среди равных

Черный дембель. Часть 5

Федин Андрей Анатольевич
5. Черный дембель
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Черный дембель. Часть 5

Кодекс Охотника. Книга XVI

Винокуров Юрий
16. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Охотника. Книга XVI

Боги, пиво и дурак. Том 4

Горина Юлия Николаевна
4. Боги, пиво и дурак
Фантастика:
фэнтези
героическая фантастика
попаданцы
5.00
рейтинг книги
Боги, пиво и дурак. Том 4

Гридень 2. Поиск пути

Гуров Валерий Александрович
2. Гридень
Детективы:
исторические детективы
5.00
рейтинг книги
Гридень 2. Поиск пути

Сфирот

Прокофьев Роман Юрьевич
8. Стеллар
Фантастика:
боевая фантастика
рпг
6.92
рейтинг книги
Сфирот