Чтение онлайн

на главную - закладки

Жанры

Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:

На самом деле наши результаты еще более убедительны, чем кажется на первый взгляд. Стандартная ошибка (0,13) очень мала по сравнению с величиной коэффициента (4,5). Практика показывает, что этот коэффициент можно считать статистически значимым, когда его величина по меньшей мере в два раза превышает величину стандартной ошибки [59] . Любой из базовых статистических пакетов также вычисляет p-значение, которое в данном случае равняется 0,000; это означает, что если в действительности зависимости между ростом и весом в совокупности в целом нет, то вероятность получить столь необычный результат, какой нам удалось наблюдать, по сути, равна нулю. Не забывайте, что мы вовсе не доказали, что более рослые люди весят больше во всей совокупности, а лишь показали, что если бы это было не так, то наши результаты для выборки Americans’ Changing Lives были бы крайне маловероятными.

59

Когда нулевая гипотеза заключается в том, что коэффициент регрессии равняется нулю (а это имеет место в большинстве случаев), отношение наблюдаемого коэффициента регрессии к стандартной ошибке называется t-статистикой. Это также объясняется в приложении к данной главе.

Базовый регрессионный анализ дает еще одну статистику, заслуживающую внимания, R^2, которая предсталяет собой показатель суммарной величины разброса, объясняемого уравнением регрессии [60] . Нам известно, что в выборке Americans’ Changing Lives наблюдается широкий разброс веса. Многие члены выборки весят больше среднего веса для данной группы в целом; многие – меньше. Величина R^2 говорит нам, какая доля этого разброса вокруг среднего значения ассоциируется лишь с различиями в росте. В нашем случае эта доля составляет 0,25, или 25 %. Более значимым может быть то обстоятельство, что 75 % этого разброса в весе для нашей выборки остаются необъясненными. Есть очевидные факторы, помимо роста, которые могут нам помочь их объяснить. Ситуация становится интереснее.

60

В статистике этот показатель называется коэффициентом детерминации. Прим. ред.

В начале этой главы я объявил регрессионный анализ чудодейственным эликсиром для социальных исследований. До сих пор я использовал некий базовый статистический пакет и впечатляющие данные, чтобы продемонстрировать тот факт, что рослые люди, как правило, весят больше коротышек. Краткая прогулка по какому-нибудь супермаркету наверняка убедила бы вас в том же. Теперь пора оценить реальные возможности регрессионного анализа. Иными словами, пора пересаживаться с детского трехколесного велосипеда на велосипед для взрослых!

Как я уже говорил, регрессионный анализ позволяет распутывать сложные взаимосвязи, в которых многие факторы оказывают влияние на интересующий нас исход, например доход, или результаты экзамена, или развитие сердечно-сосудистых заболеваний. Когда мы включаем в уравнение регрессии несколько переменных, анализ дает оценку линейной зависимости между каждой объясняющей и зависимой переменной, оставляя при этом неизменными другие зависимые переменные (то есть «контролируя» их). Давайте на какое-то время сосредоточимся на весе. Мы выявили зависимость между ростом и весом, а также знаем о существовании других факторов (возраст, пол, режим питания, занятия спортом и т. п.), которые могут помочь объяснить вес. Посредством регрессионного анализа (часто называемого множественным регрессионным анализом, если в нем задействовано несколько объясняющих переменных, или многофакторным регрессионным анализом) можно вычислить некий коэффициент регрессии для каждой объясняющей переменной, задействованной в уравнении регрессии. Скажем, какова зависимость между возрастом и весом среди людей одного и того же пола и роста. Когда нам приходится иметь дело с несколькими объясняющими переменными, соответствующие данные уже невозможно отобразить на двумерной диаграмме. (Попытайтесь представить себе диаграмму, которая отображает вес, пол, рост и возраст каждого участника исследования Americans’ Changing Lives.) Тем не менее базовая методология остается той же, что и в примере с ростом и весом. При добавлении объясняющих переменных статистический пакет будет вычислять коэффициенты регрессии, которые минимизируют общую сумму квадратов разностей для соответствующего уравнения регрессии.

Пока ограничимся данными исследования Americans’ Changing Lives, а затем я вернусь и предложу интуитивно понятное объяснение того, как действует этот механизм. Мы можем начать с добавления в уравнение регрессии еще одной переменной, которая объясняет вес участников Americans’ Changing Lives, – «возраст». Когда мы вычислим уравнение регрессии, включающее рост и возраст в качестве объясняющих переменных, то получим вот что:

Вес = -145 + 4,6 x (Рост в дюймах) + 0,1 x (Возраст в годах)

Коэффициент возраста равняется 0,1. Это можно интерпретировать так: каждый дополнительный год к возрасту человека ассоциируется с 0,1 дополнительных фунта к весу человека при неизменном росте. Для любой группы людей одного и того же роста те, кто на десять лет старше, весят в среднем на один фунт больше. Как видим, влияние возраста на вес человека не так уж велико, но это соответствует тому, что мы обычно наблюдаем в реальной жизни. Данный коэффициент является значимым на уровне 0,05.

Возможно, вы заметили, что коэффициент для роста несколько увеличился. После того как мы включили в нашу регрессию возраст, у нас появилось уточненное понимание зависимости между ростом и весом. Среди людей одного возраста в выборке (иными словами, при фиксированном возрасте) каждый дополнительный дюйм роста ассоциируется с дополнительными 4,6 фунта веса.

Теперь давайте добавим еще одну переменную – пол. Тут есть один нюанс: пол может принимать лишь два значения (мужской и женский). Как вставить эти «М» и «Ж» в регрессию? Благодаря использованию так называемой двоичной, или фиктивной переменной. Вводим в нашей совокупности данных 1 для участников-женщин и 0 – для участников-мужчин. (Дорогие мужчины, пожалуйста, не обижайтесь!) При этом коэффициент пола можно интерпретировать как влияние на вес того обстоятельства, что данный участник является женщиной – при прочих равных условиях (ceteris paribus). Этот коэффициент составляет –4,8, что не должно вызывать у вас удивления. Это можно истолковать так: когда речь идет об участниках одного и того же роста и возраста, женщины обычно весят на 4,8 фунта меньше мужчин. Теперь вам уже должны быть в какой-то мере ясны богатые возможности множественного регрессионного анализа. Нам известно, что женщины обычно ниже мужчин, и наш коэффициент учитывает это обстоятельство, поскольку мы уже контролируем рост (мы его «зафиксировали»). В данном случае мы рассматриваем влияние пола – точнее говоря, женского пола. Новая регрессия принимает следующий вид:

Вес = -118 + 4,3 x (Рост в дюймах) + 0,12 x (Возраст в годах) - 4,8 (Если пол женский)

Наша «наилучшая» оценка веса пятидесятитрехлетней женщины, рост которой равен 5 футов и 5 дюймов, такова: -118 + 4,3 x 65 + 0,12 x 53 - 4,8 = 163 фунта.

Наша «наилучшая» оценка веса тридцатипятилетнего мужчины, рост которого составляет 6 футов и 3 дюйма, такова: -118 + 4,3 x 75 + 0,12 x 35 = 209 фунтов. Мы опускаем последний член (-4,8) при вычислении результата регрессии, поскольку рассматриваемый нами человек не является женщиной.

Теперь давайте приступим к проверке более интересных и менее предсказуемых вещей. Что можно сказать по поводу образования? Как оно может влиять на вес? Я бы выдвинул гипотезу, что более образованные люди в большей степени заботятся о своем здоровье и, следовательно, весят меньше. Кроме того, мы еще не проверяли влияние занятий спортом; я полагаю, что при прочих равных условиях члены нашей выборки, регулярно занимающиеся спортом, весят меньше.

А что можно сказать по поводу бедности? Не сказываются ли низкие доходы части американцев на их весе? В исследовании Americans’ Changing Lives есть вопрос о том, получает ли его участник продовольственные талоны. (Продовольственные талоны в Соединенных Штатах выдаются только малоимущим гражданам.) Наконец, меня интересует расовая принадлежность человека. Нам известно, что люди разных рас в США имеют разный жизненный опыт именно вследствие своей расовой принадлежности. С той или иной расой в Соединенных Штатах ассоциируются определенные культурные факторы и места компактного проживания. Все эти факторы могут оказывать влияние на вес человека. Многие города Америки характеризуются высокой степенью расовой сегрегации: афроамериканцы чаще других американских граждан проживают в так называемых продовольственных пустынях, то есть территориях с ограниченным доступом к продовольственным магазинам, где продаются свежие фрукты, овощи и другая свежая продукция.

Регрессионный анализ можно использовать для обособления независимого влияния каждого из потенциальных объясняющих факторов, описанных выше. Например, мы можем вычленить связь между расовой принадлежностью и весом человека, сохраняя постоянными другие социально-экономические факторы, такие как уровень образования и бедность. Существует ли статистически достоверная связь между весом человека и его принадлежностью к негроидной расе, если речь идет о людях, окончивших среднюю школу и имеющих право на получение продовольственных талонов?

Популярные книги

Бывшие. Война в академии магии

Берг Александра
2. Измены
Любовные романы:
любовно-фантастические романы
7.00
рейтинг книги
Бывшие. Война в академии магии

Невеста на откуп

Белецкая Наталья
2. Невеста на откуп
Фантастика:
фэнтези
5.83
рейтинг книги
Невеста на откуп

Аномальный наследник. Том 1 и Том 2

Тарс Элиан
1. Аномальный наследник
Фантастика:
боевая фантастика
альтернативная история
8.50
рейтинг книги
Аномальный наследник. Том 1 и Том 2

Матабар

Клеванский Кирилл Сергеевич
1. Матабар
Фантастика:
фэнтези
5.00
рейтинг книги
Матабар

Секретарша генерального

Зайцева Мария
Любовные романы:
современные любовные романы
эро литература
короткие любовные романы
8.46
рейтинг книги
Секретарша генерального

Мужчина моей судьбы

Ардова Алиса
2. Мужчина не моей мечты
Любовные романы:
любовно-фантастические романы
8.03
рейтинг книги
Мужчина моей судьбы

Возвышение Меркурия. Книга 12

Кронос Александр
12. Меркурий
Фантастика:
героическая фантастика
попаданцы
аниме
5.00
рейтинг книги
Возвышение Меркурия. Книга 12

Табу на вожделение. Мечта профессора

Сладкова Людмила Викторовна
4. Яд первой любви
Любовные романы:
современные любовные романы
5.58
рейтинг книги
Табу на вожделение. Мечта профессора

Холодный ветер перемен

Иванов Дмитрий
7. Девяностые
Фантастика:
попаданцы
альтернативная история
6.80
рейтинг книги
Холодный ветер перемен

Сын мэра

Рузанова Ольга
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Сын мэра

Ученик. Книга третья

Первухин Андрей Евгеньевич
3. Ученик
Фантастика:
фэнтези
7.64
рейтинг книги
Ученик. Книга третья

Свои чужие

Джокер Ольга
2. Не родные
Любовные романы:
современные любовные романы
6.71
рейтинг книги
Свои чужие

Его огонь горит для меня. Том 2

Муратова Ульяна
2. Мир Карастели
Фантастика:
юмористическая фантастика
5.40
рейтинг книги
Его огонь горит для меня. Том 2

Убивать чтобы жить 2

Бор Жорж
2. УЧЖ
Фантастика:
героическая фантастика
боевая фантастика
рпг
5.00
рейтинг книги
Убивать чтобы жить 2