Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:
В данном случае уравнение регрессии окажется таким длинным, что было бы весьма проблематично привести его здесь полностью. Научные статьи обычно включают огромные таблицы, обобщающие результаты разных уравнений регрессии. В приложении к этой главе вы найдете таблицу с полными результатами этого уравнения регрессии. Между тем, я могу подсказать, что произойдет, если мы добавим в уравнение такие факторы, как уровень образования человека, его склонность к занятиям спортом, показатель бедности (исходя из которого определяется его право на получение продовольственных талонов) и расовая принадлежность.
Все наши исходные переменные (рост, возраст и пол) по-прежнему остаются значимыми. При добавлении объясняющих переменных несколько изменяются коэффициенты. Новые переменные являются статистически значимыми на уровне 0,05. Значение R^2 для этой регрессии повысилось с 0,25 до 0,29. (Вспомните: нулевая величина R^2 означает, что уравнение регрессии прогнозирует вес любого человека в данной выборке ничуть не лучше,
Как я и предполагал, зависимость между образованием и весом человека оказалась отрицательной. Среди участников исследования Americans’ Changing Lives каждый дополнительный год образования ассоциируется с -1,3 фунта веса.
Неудивительно, что физические упражнения также отрицательно связаны с весом человека. Исследование Americans’ Changing Lives включает индекс, который оценивает каждого участника исследования с точки зрения уровня его физической активности. Те, кто находится в нижнем квинтиле [61] склонности к регулярным занятиям спортом, весят в среднем на 4,5 фунта больше, чем другие взрослые в этой выборке, ceteris paribus. И примерно на 9 фунтов больше, чем взрослые в верхнем квинтиле склонности к регулярным занятиям спортом.
61
Квинтиль – это квантиль порядка 0,2. Если выборочные значения организовать в порядке возрастания, то квинтили делят эту выборку на пять равных (по количеству) частей. В данном случае «нижний квинтиль склонности к регулярным занятиям спортом» – это группа наименее склонных к регулярным занятиям спортом, составляющая пятую часть из совокупности лиц, регулярно им занимающихся. Прим. ред.
Вес тех, кто получает продовольственные талоны (что служит показателем бедности в этой регрессии), больше, чем у других взрослых. Получатели продовольственных талонов весят в среднем на 5,6 фунта больше, чем другие участники исследования Americans’ Changing Lives, ceteris paribus.
Переменная расовой принадлежности представляет особый интерес. Даже если мы зафиксируем все остальные вышеперечисленные переменные, расовая принадлежность сыграет довольно важную роль в объяснении веса. Неиспаноязычные взрослые негроидной расы в выборке Americans’ Changing Lives весят в среднем примерно на 10 фунтов больше, чем другие взрослые в выборке. Десять фунтов – весьма существенная прибавка в весе как в абсолютном выражении, так и по сравнению с влиянием других объясняющих переменных в нашем уравнении регрессии. И это вовсе не какой-то случайный «выверт» данных. p-значение по фиктивной переменной для неиспаноязычных взрослых негроидной расы равняется 0,000, а 95 %-ный доверительный интервал охватывает величины веса от 7,7 фунта до 16,1 фунта.
Что же происходит? Честно говоря, не имею понятия. Могу лишь повторить замечание, сделанное мною выше в одной из сносок: я лишь экспериментирую с данными, чтобы проиллюстрировать принцип действия регрессионного анализа. Представленные здесь аналитические материалы призваны подтвердить результаты научного исследования значения дворового хоккея для НХЛ. (Шутка.) Если бы это был реальный исследовательский проект, то для подтверждения правильности его выводов понадобились бы недели и даже месяцы аналитической работы. Могу лишь сказать, что я продемонстрировал вам, почему множественный регрессионный анализ – лучший из имеющихся в нашем распоряжении инструмент для поиска существенных закономерностей в больших и сложных совокупностях данных. Мы начали со смехотворно банального упражнения: поиска численного выражения связи между ростом и весом, а затем перешли к рассмотрению вопросов, имеющих реальное социальное значение.
В этом ключе я могу предложить вам реальное исследование, в котором регрессионный анализ использовался для решения социально значимой проблемы – дискриминации по половому признаку на рабочем месте. Такую дискриминацию, как правило, трудно наблюдать непосредственно. Никто из работодателей не скажет вам напрямую, что тому или иному работнику платят меньше только по причине его расовой или половой принадлежности или что кого-то не приняли на работу по каким-либо дискриминационным соображениям (в результате чего этот человек, наверное, нашел другую работу, но с более низкой заработной платой). Однако на практике мы наблюдаем различия в зарплате по расовому или половому признаку, которые могут быть следствием дискриминации: белые зарабатывают больше, чем черные; мужчины – больше, чем женщины, и т. д. Методологическая проблема заключается в том, что эти различия могут также оказаться результатом других различий между работниками, которые не имеют ничего общего с дискриминацией (например, женщины зачастую предпочитают работать неполный рабочий день). В какой мере имеющаяся разница в оплате труда обусловлена факторами, связанными с производительностью на работе, а в какой – с дискриминацией работников (если таковая вообще присутствует)? Никто не станет утверждать, что этот вопрос относится к разряду тривиальных.
Регрессионный анализ может помочь нам на него ответить. Однако в этом случае наша методология будет несколько более «окольной», чем в примере с анализом, объясняющим вес. Поскольку дискриминация не поддается непосредственному измерению, нам придется исследовать другие факторы (например образование, производственный стаж, род занятий и т. п.), которые традиционно объясняют уровень заработной платы. Мы можем действовать методом исключения: если после фиксации этих факторов все же останется существенная разница в зарплате, то дискриминация на работе, по-видимому, имеет место. Чем больше необъясненная доля разницы в заработной плате, тем сильнее подозрения в наличии дискриминации на рабочем месте. Рассмотрим статью трех экономистов, исследующих траектории заработной платы в выборке, состоящей примерно из 2500 мужчин и женщин – выпускников Booth School of Business Чикагского университета (все они обладатели степени MBA) {72} . Сразу после выпуска средний начальный уровень заработной платы у мужчин и женщин приблизительно одинаков: 130 000 долларов у мужчин и 115 000 долларов у женщин. Однако через десять лет образуется огромный разрыв: женщины в среднем зарабатывают на целых 45 % меньше, чем их бывшие однокурсники-мужчины: 243 000 долларов против 442 000 долларов. В более широкой выборке, включающей свыше 18 000 выпускников (обладающих степенью MBA), которые приступили к работе в период с 1990 по 2006 год, у женщин на 29 % ниже заработки, чем у мужчин. Что же происходит с женщинами, после того как они выходят на рынок труда?
72
Marianne Bertrand, Claudia Goldin, and Lawrence F. Katz, Dynamics of the Gender Gap for Young Professionals in the Corporate and Financial Sectors, NBER Working Paper 14681, January 2009.
Согласно авторам данного исследования (Марианна Бертран из Booth School of Business, Клаудиа Голдин и Лоуренс Кац из Гарвардского университета), дискриминация не является вероятным объяснением большей доли разрыва в зарплатах. Причем разрыв по половому признаку исчезает, когда авторы добавляют в анализ дополнительные объясняющие переменные. Например, при прохождении программы MBA мужчины посещают дополнительные курсы финансов и на выпускных экзаменах получают в среднем более высокие оценки. Когда эти данные используются в уравнении регрессии в качестве управляющих переменных, необъясненная доля разрыва в уровнях зарплаты мужчин и женщин снижается до 19 %. Когда же в это уравнение включаются переменные, позволяющие учитывать рабочий стаж после окончания университета, необъясненная доля разрыва в уровнях зарплаты мужчин и женщин снижается до 9 %. А когда в уравнение добавляются объясняющие переменные для других характеристик (например, тип работодателя и количество реально отработанных часов), необъясненная доля разрыва в уровнях зарплаты мужчин и женщин снижается до менее 4 %.
Что касается работников, стаж которых превышает десять лет, то авторы исследования могут в конечном счете объяснить все, кроме 1 %-ного разрыва в уровнях зарплаты мужчин и женщин, факторами, не имеющими никакого отношения к дискриминации на работе [62] . Авторы пришли к следующему выводу: «Мы выявили три непосредственные причины существования большого увеличивающегося разрыва в уровнях зарплаты мужчин и женщин: разница в уровнях знаний, полученных в высшем учебном заведении; разница, обусловленная большими перерывами в стаже у женщин; разница в количестве реально отрабатываемых часов в неделю. Эти три детерминанта могут объяснить львиную долю разрыва в уровнях зарплаты мужчин и женщин по окончании ими вуза и после начала трудовой деятельности».
62
Более широкие силы дискриминационного характера могут влиять на выбор женщинами той или иной служебной карьеры или на тот факт, что женщинам гораздо чаще, чем мужчинам, приходится брать отпуск по уходу за детьми. Однако эти важные вопросы не следует путать с более узким вопросом, платят ли женщинам меньше, чем мужчинам, за одну и ту же работу.
Я надеюсь, что убедил вас в полезности множественного регрессионного анализа, особенно в возможности делать выводы по результатам исследований путем обособления влияния какой-то одной объясняющей переменной и фиксации («контроля») других факторов, способных вносить искажения в выводы. Я еще не предложил вам интуитивно понятного объяснения того, как этот статистический «волшебный эликсир» работает. Когда мы используем регрессионный анализ для оценивания зависимости между образованием и весом человека, ceteris paribus, как применяемый нами статистический пакет контролирует такие факторы, как рост, пол, возраст и доход, когда нам доподлинно известно, что участники исследования Americans’ Changing Lives вовсе не идентичны в других отношениях?