Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:
Я помню, как один из преподавателей нашего колледжа утверждал, что результаты школьных экзаменов высоко коррелированны с количеством автомобилей, которыми владеет семья. Этим он как бы намекал на несправедливость школьных тестов и невозможность использовать их итоги в качестве основного критерия при поступлении в колледж. Разумеется, система школьных экзаменов не лишена недостатков, но корреляция между их результатами и количеством автомобилей в семье вовсе не то, что тревожит меня больше всего. Меня мало волнует, что богачи могут устроить своих детей в колледж, купив еще три автомобиля. Количество автомобилей в семейном гараже является показателем дохода соответствующей семьи, уровня образования ее членов и прочих признаков их социально-экономического статуса. То обстоятельство, что дети из состоятельных семей сдают экзамены успешнее их менее зажиточных сверстников, не новость. (Как отмечалось ранее, средний балл сдачи стандартизированного теста по чтению у учащихся из семей, совокупный доход которых превышает 200 000 долларов, на 134 балла выше, чем средний результат сдачи такого же теста детьми из семей, совокупный доход которых не превышает 20 000 долларов.) {80} Гораздо больше
80
College Board, 2011 College-Bound Seniors Total Group Profile Report, http://research.collegeboard.org/programs/sat/data/archived/cb-seniors-2011.
Сильно коррелированные объясняющие переменные (мультиколлинеарность). Если уравнение регрессии включает две объясняющие переменные (или даже больше), сильно коррелированные между собой, то анализ вполне может не выявить истинной зависимости между каждой из этих переменных и исходом, который мы пытаемся объяснить. Приведу соответствующий пример. Допустим, мы хотим измерить влияние противозаконного использования наркотиков на результаты сдачи экзаменов. В частности, мы располагаем данными о том, употребляли ли когда-либо участники нашего исследования кокаин и «баловались» ли когда-либо героином. (Будем исходить из того, что в нашем распоряжении есть и много других управляющих переменных.) Каково влияние употребления кокаина на результаты сдачи экзаменов (при условии неизменности всех остальных факторов, включая употребление героина)? А каково влияние употребления героина на итоги экзаменов (при условии неизменности всех остальных факторов, включая употребление кокаина)?
Вполне возможно, что коэффициенты по употреблению героина и кокаина не смогут ответить на интересующие нас вопросы. Методологическая проблема в данном случае заключается в том, что те, кто «баловался» героином, наверняка употребляли и кокаин. Если поместить в уравнение обе переменные, то число тех, кто употреблял один из этих наркотиков, но не употреблял другой, окажется очень незначительным. Это оставит нам довольно мизерное расхождение в данных, на основании которого мы могли бы вычислить их независимые влияния. Вспомните мысленный эксперимент, который мы провели в предыдущей главе, чтобы объяснить регрессионный анализ. Мы распределили выборку данных по разным комнатам, в которых каждое наблюдение идентично за исключением одной переменной, что позволяло затем вычленить влияние этой переменной, параллельно контролируя другие факторы, потенциально способные сказываться на интересующем нас исходе. В нашей выборке может быть 692 человека, которые употребляли и кокаин, и героин. Но у нас может быть и всего три человека, которые употребляли только кокаин, и два человека, употреблявших только героин. Любой вывод относительно независимого влияния лишь одного или другого наркотика будет основываться на этих крошечных выборках.
Вряд ли нам удастся получить достоверные коэффициенты регрессии по какой-либо из этих двух переменных (кокаин или героин); мы можем также проигнорировать более сильную и важную зависимость между результатами экзаменов и употреблением какого-то одного из этих наркотиков. Когда две объясняющие переменные сильно коррелированны между собой, исследователи обычно используют в уравнении регрессии какую-то одну из них; как вариант, они могут создать некую составную переменную, например «употреблял кокаин или героин». Если же исследователи хотят контролировать в целом социально-экономическое положение учащегося, они могут включить переменные «образование матери» и «образование отца», поскольку это обеспечивает важное указание на уровень образования соответствующей семьи в целом. Однако если цель регрессионного анализа – вычленить влияние либо образования отца, либо образования матери, то включение в уравнение обеих переменных скорее запутает вопрос, чем внесет в него ясность. Корреляция между уровнями образования мужа и жены столь высока, что мы не можем полагаться на то, что регрессионный анализ даст нам коэффициенты, которые позволят надлежащим образом вычленить влияние образования кого-либо из родителей (это так же трудно, как обособить влияние употребления кокаина от влияния употребления героина) [69] .
69
Проще говоря (так, как принято в этой книге), мультиколлинеарность заключается в наличии сильной линейной (статистической) зависимости внутри некоторой группы объясняющих переменных. Это порождает вычислительные сложности или вообще невозможность рассчитать коэффициенты функции регрессии. Прим. ред.
Экстраполяция за границы имеющихся данных. Регрессионный анализ, как и все формы статистического вывода, помогает нам лучше понять окружающий мир. Мы пытаемся выявить закономерности, которые будут общими и для более крупной совокупности. Однако наши результаты будут справедливы лишь для совокупности, подобной выборке, в отношении которой выполнялся анализ. В предыдущей главе я создал уравнение регрессии, позволяющее предсказывать вес, основываясь на ряде независимых переменных. Значение R^2 в моей окончательной модели равнялось 0,29; это означает, что оно дает возможность объяснить разброс веса для крупной выборки людей, если все они оказались взрослыми.
Итак, что же произойдет, если мы воспользуемся нашим уравнением регрессии для предсказания вероятного веса новорожденного младенца? Давайте проверим. При рождении рост моей дочери составлял 21 дюйм. Допустим, ее возраст в момент рождения равнялся нулю; у нее, конечно же, не было образования и она не занималась спортом. Она относилась к белой расе и была женского пола. Уравнение регрессии, основанное на данных America’s Changing Lives, предсказывает, что ее вес при рождении должен иметь отрицательную величину: -19,6 фунта. (В действительности она весила 8,5 фунта.)
Авторы одного из исследований, выполнявшихся по заказу британского правительства (мы упоминали о них в предыдущей главе), сделали совершенно четкий вывод: «Неспособность работника влиять на свою рабочую среду ассоциируется с повышенным риском развития заболеваний сердечно-сосудистой системы среди государственных служащих» {81} (курсив мой).
Интеллектуальный анализ (слишком много переменных). Если игнорирование важных переменных представляет собой потенциальную проблему, то, может быть, ее возможным решением будет максимальное наращивание количества объясняющих переменных в уравнении регрессии? Отнюдь! Ваши результаты могут быть поставлены под угрозу, если вы включите в уравнение регрессии чересчур большое число переменных, особенно если речь идет о дополнительных объясняющих переменных без какого-либо теоретического обоснования такого решения. Например, не следует разрабатывать стратегию исследования, построенную на следующей предпосылке: поскольку нам неизвестно, что вызывает аутизм, нужно включить в уравнение регрессии как можно больше потенциальных объясняющих переменных, чтобы увидеть, что именно может оказаться статистически значимым; затем, возможно, мы сумеем получить кое-какие ответы. Если вы включите в уравнение регрессии достаточно большое число лишних переменных, то одна из них, по чистой случайности, обязательно достигнет порога статистической значимости. Еще одна опасность заключается в том, что лишние переменные порой не так-то легко распознать именно как лишние. Опытные исследователи могут всегда обосновать теоретически, постфактум, почему та или иная необычная переменная, которая в действительности совершенно бессмысленна, оказывается статистически значимой [70] .
81
Hans Bosma et al., Low Job Control and Risk of Coronary Heart Disease in Whitehall II (Prospective Cohort) Study, British Medical Journal 314, no. 7080 (February 22, 1997): 564.
70
Еще одной проблемой «лишних» переменных является мультиколлинеарность (описанная выше), вероятность которой резко возрастает при внесении в уравнение регрессии дополнительных переменных, не прошедших специальной проверки. С другой стороны отметим, что в регрессионном анализе развиты средства отбраковки лишних незначимых объясняющих переменных. Простейшим из которых является так называемый скорректированный коэффициент детерминации, рассчитываемый на основе параметра R^2. Прим. ред.
Чтобы доказать это, я нередко проделываю то же упражнение с подбрасыванием монетки, которое приводил при обсуждении вероятностей. В аудитории примерно из сорока студентов я предлагаю каждому подбросить монетку. Все, у кого выпадает решка, выводятся из игры; остальные продолжают подбрасывание. Во втором раунде те, у кого выпадает решка, снова выводятся из игры. Я продолжаю раунды до тех пор, пока у кого-то из студентов пять или шесть раз подряд не выпадет орел. Наверняка вам придут на память глупые вопросы, которые обычно задают в таких случаях: «В чем ваш секрет? Вы достаете этих орлов из рукава? Можете ли вы научить нас подбрасывать монетку так, чтобы каждый раз выпадал орел? Может быть, все дело в фирменной футболке Гарвардского университета, в которой вы пришли сегодня на лекцию?»
Разумеется, череда следующих друг за другом выпаданий орлов – чистая случайность: студенты, присутствовавшие в аудитории, были свидетелями происходящего. Однако полученный результат мог по-разному интерпретироваться в научном контексте. Вероятность пятикратного (подряд) выпадания орлов равняется 1/32, или 0,03. Это существенно ниже порога 0,05, который мы обычно используем, чтобы отвергнуть основную гипотезу. Наша нулевая гипотеза в данном случае заключается в том, что этот студент не обладает особым талантом подбрасывать монетку. Тем не менее удачная череда выпаданий орлов (которая обязательно произойдет по крайней мере у одного студента, если этот эксперимент будет проводиться с достаточно большим количеством участников) позволяет нам отклонить нулевую гипотезу и принять альтернативную гипотезу, утверждающую, что данный студент обладает особым талантом подбрасывать монетку так, чтобы каждый раз выпадал орел. После того как он достиг этого впечатляющего результата, мы можем подвергнуть его более детальному изучению в надежде выявить причины столь блестящих достижений: методика подбрасывания монетки, особая физическая подготовка, умение полностью сконцентрироваться на монетке, пока она вращается в воздухе, и т. п. Все это совершеннейшая чепуха!
Подобное явление способно расстроить даже безупречно организованное исследование. Считается, что нулевую гипотезу следует отвергнуть, когда мы наблюдаем нечто, что должно было бы произойти по чистой случайности не чаще, чем в 1 случае из 20, если бы наша основная гипотеза была верна. Разумеется, если мы проведем 20 исследований или включим в одно уравнение регрессии 20 лишних переменных, то в среднем получим один ложный статистически значимый результат. Журнал The New York Times блестяще выразил это противоречие, процитировав Ричарда Пето, медицинского статистика и эпидемиолога: «Эпидемиология так восхитительна и позволяет получить столь важные представления о жизни и смерти человека! Удручает лишь невероятное количество никому не нужных, бестолковых публикаций» {82} .
82
Taubes, Do We Really Know?