Голая статистика. Самая интересная книга о самой скучной науке, Уилан Чарльз

Голая статистика. Самая интересная книга о самой скучной науке

на обложку

Уилан Чарльз

Шрифт:

Вы успешно проникаете в движущийся автобус и тайно определяете вес его пассажиров. Оказывается, что он составляет 136 фунтов, то есть меньше среднего значения совокупности более чем на две стандартные ошибки. (Еще одной важной подсказкой для вас становится то, что все пассажиры – дети, одетые в футболки с надписью «Глендейлский хоккейный лагерь».)

Руководствуясь инструкциями по выполнению вашей миссии, вы можете отклонить нулевую гипотезу, что этот автобус перевозит случайную выборку из 60 участников исследования Americans’ Changing Lives. Это означает, что 1) средний вес пассажиров автобуса попадает в диапазон, который, согласно нашим ожиданиям, может наблюдаться лишь в 5 случаях из 100, если бы основная гипотеза была верна и автобус действительно перевозил участников исследования Americans’ Changing Lives; 2) вы можете отвергнуть основную гипотезу с уровнем значимости 0,05 и 3) в среднем в 95 случаях

из 100 ваше решение отклонить нулевую гипотезу окажется правильным, а в 5 случаях из 100 вы ошибетесь, то есть придете к заключению, что автобус не перевозил участников исследования Americans’ Changing Lives, хотя на самом деле он их перевозил. Просто случилось так, что средний вес этой выборки участников исследования Americans’ Changing Lives оказался существенно выше или ниже среднего значения для всех участников данного исследования.

Однако на этом ваша миссия не заканчивается. Ваш куратор из центра контртеррористических операций (в киноверсии данного примера эту роль играет Анджелина Джоли) просит вас вычислить p-значение для вашего результата. p-значение – это вероятность получения результата, по меньшей мере такого же экстремального, как тот, который мы наблюдали бы, если бы нулевая гипотеза была верна. Средний вес пассажиров автобуса равняется 136 фунтов, что меньше среднего значения для данной совокупности (участников исследования Americans’ Changing Lives) на 5,7 стандартной ошибки. Вероятность получения результата, по меньшей мере такого же экстремального, если бы это действительно была выборка из участников исследования Americans’ Changing Lives, не превышает 0,0001. (На языке, принятом у исследователей, это было бы обозначено как p < 0,0001.) Завершив свою миссию, вы выпрыгиваете из движущегося автобуса и оказываетесь на пассажирском сиденье автомобиля с откидным верхом, движущегося параллельным автобусу курсом.

[Эта история со счастливым концом. После того как террористы, выступающие за права тучных людей, узнали о том, что в вашем городе проводится Международный фестиваль любителей сосисок, они сразу же согласились отпустить заложников и пообещали продолжать борьбу за права людей, страдающих ожирением, исключительно мирными средствами, пропагандируя и организуя фестивали любителей сосисок по всему миру.]

* * *

Если уровень значимости 0,05 кажется вам в какой-то мере произвольным, то вы абсолютно правы: так оно и есть! Не существует единого стандартизированного статистического порога для отказа от нулевой гипотезы. Значения 0,01 и 0,1 тоже широко используются для выполнения описанного выше анализа.

Очевидно, что отказ от нулевой гипотезы с уровнем значимости 0,01 (то есть когда наши шансы наблюдать какой-либо результат в этом диапазоне, если бы нулевая гипотеза была верна, составляют менее 1 из 100) обладает большим статистическим весом, чем отказ от нулевой гипотезы с уровнем значимости 0,1 (то есть когда наши шансы наблюдать данный результат, если бы нулевая гипотеза была верна, составляют менее 1 из 10). Плюсы и минусы тех или иных уровней значимости будут обсуждаться ниже в этой главе. Пока же запомним следующее: когда мы можем отвергнуть основную гипотезу с некоторым разумным уровнем значимости, соответствующие результаты считаются «статистически значимыми».

В реальной жизни это означает вот что. Когда вы читаете в газете, что те, кто съедает двадцать булочек из отрубей в день, реже страдают раком толстой кишки, чем те, кто не употребляет пищу из отрубей в больших количествах, научные исследования, на основании которых сделан этот вывод, вероятнее всего, выглядели примерно так. 1) Исходя из некоторой объемной совокупности данных ученые определили, что те, кто ежедневно съедает по меньшей мере двадцать булочек из отрубей, болеют раком толстой кишки реже, чем те, кто не увлекается пищей из отрубей. 2) Основная гипотеза исследователей звучала так: поедание булочек из отрубей не влияет на заболеваемость раком толстой кишки. 3) Разницу в заболеваемости раком толстой кишки между теми, кто ест булочки из отрубей, и теми, кто игнорирует их, невозможно объяснить чистой случайностью. Точнее говоря, если поедание булочек из отрубей не связано с заболеваемостью раком толстой кишки, то вероятность чисто случайного наблюдения столь большой разницы должна быть ниже некоторого порога, например 0,05. (Этот порог исследователи должны устанавливать до выполнения статистического анализа, чтобы избежать его выбора постфактум, что бывает очень удобно, когда полученным результатам требуется придать значимость.) 4) Соответствующая научная публикация, наверное, содержит примерно такой вывод: «Мы обнаружили статистически значимую зависимость между ежедневным употреблением двадцати и более булочек из отрубей и снижением заболеваемости раком толстой кишки. Эти результаты значимы на уровне 0,05».

Когда я впоследствии читал об этом исследовании в газете Chicago Sun-Times, по привычке завтракая ветчиной и яйцами, заголовок статьи «20 булочек из отрубей в день уберегут вас от рака толстой кишки!» чрезвычайно меня заинтересовал. Хотя он показался мне гораздо интереснее самой статьи, на мой взгляд, он грешил существенной неточностью. В действительности исследователи вовсе не заявляли, будто поедание булочек из отрубей снижает риск заболевания раком толстой кишки; они лишь продемонстрировали наличие отрицательной корреляции между употреблением булочек из отрубей и заболеваемостью раком толстой кишки в одной объемной совокупности данных. Но такой статистической связи недостаточно, чтобы доказать, что булочки из отрубей послужили причиной «улучшения состояния здоровья». В конце концов, те, кто ест булочки из отрубей (особенно если это целых двадцать штук за день!), наверняка делают много чего

другого, чтобы снизить риск заболевания раком толстой кишки, например практически не употребляют красного мяса, регулярно занимаются физическими упражнениями, периодически обследуются и т. п. (Это так называемая систематическая ошибка здорового человека, о которой рассказывалось в главе 7.) В чем же состоит подлинная причина снижения риска заболевания раком толстой кишки: в употреблении булочек из отрубей, каких-то других особенностях поведения или личных качествах, характерных для любителей таких булочек? Это различие между корреляцией и причинно-следственной связью очень важно для правильной интерпретации статистических результатов. Чуть позже мы еще вернемся к утверждению о том, что «корреляция и причинно-следственная зависимость – не одно и то же».

Кроме того, должен отметить, что статистическая значимость ничего не говорит о степени связи. У тех, кто употребляет много булочек из отрубей, заболеваемость раком толстой кишки действительно может оказаться ниже – но насколько ниже? Разница в заболеваемости раком толстой кишки между теми, кто ест много булочек, и теми, кто их не ест, может быть очень несущественной; выяснение статистической значимости лишь означает, что наблюдаемый нами эффект, каким бы ничтожным он ни был, по-видимому, не является чистой случайностью. Допустим, вы узнали, что результаты надлежащим образом организованного и проведенного исследования продемонстрировали наличие статистически значимой положительной связи между поеданием банана перед сдачей школьного экзамена по математике и получением по нему более высокой оценки. Прежде всего вас интересует, насколько силен этот эффект. Если, например, средняя оценка за экзамен по математике составляет 500 баллов, то ее повышение на 0,9 балла вряд ли радикально изменит вашу жизнь. В главе 11 мы еще вернемся к разнице между степенью и значимостью, когда будем говорить об интерпретации статистических результатов.

Однако вывод об «отсутствии статистически значимой связи» между двумя переменными означает, что любую связь между этими переменными можно объяснить исключительно чистой случайностью. Газета The New York Times недавно провела собственное расследование относительно правдивости заявлений некоторых компаний, занимающихся разработкой программного обеспечения, о том, что их продукты повышают успеваемость учащихся. Желание изобличить обман у сотрудников The New York Times возникло после того, как в их руки попали данные, свидетельствующие об обратном {60} . В материале, опубликованном The New York Times, утверждалось, что Университет Карнеги-Меллон продает компьютерную программу под названием Cognitive Tutor, сопровождаемую лозунгом «Революционный курс математики! Революционные результаты!» Между тем, оценка Cognitive Tutor, проведенная Министерством образования США, показала, что данный продукт «не оказывает никакого заметного влияния на результаты экзаменов по математике в старших классах. (The New York Times считает, что в соответствующей маркетинговой кампании следовало бы использовать более скромные заявления, например: «Заурядный курс математики. Сомнительные результаты».) В действительности анализ десяти программных продуктов, предназначенных для обучения математике или чтению, показал, что девять из них «не оказывают статистически значимого влияния на итоги сдачи экзаменов». Иными словами, любые различия в успеваемости между учащимися, которые пользуются и не пользуются этими программными продуктами, вполне могут быть обусловлены чистой случайностью.

Trip Gabriel and Matt Richtel, Inflating the Software Report Card, New York Times, October 9, 2011.

Сейчас я сделаю небольшую паузу, чтобы напомнить вам, почему все это для нас так важно. В мае 2011 года в газете The Wall Street Journal вышла статья под заголовком «Причина аутизма в размере мозга». Это был настоящий прорыв, поскольку причины аутизма до сих пор не установлены. В первом же предложении этой статьи, в которой кратко излагался материал, опубликованный ранее в журнале Archives of General Psychiatry, сообщалось: «У детей, страдающих аутизмом, объем мозга больше, чем у здоровых детей, причем, согласно результатам нового исследования, обнародованным в понедельник, увеличение объема мозга, по-видимому, происходит в возрасте до двух лет» {61} . На основе томографического обследования 59 детей, страдающих аутизмом, и 38 здоровых детей ученые из Университета Северной Каролины пришли к выводу, что объем мозга у детей-аутистов на 10 % больше, чем у их здоровых сверстников.

Jennifer Corbett Dooren, Link in Autism, Brain Size, Wall Street Journal, May 3, 2011.

Возникает естественный медицинский вопрос: существует ли какая-либо физиологическая особенность у мозга ребенка, страдающего аутизмом? Если да, то это может помочь нам понять причины развития аутизма, а также найти способы его лечения или профилактики.

Появляется и соответствующий статистический вопрос: могут ли исследователи делать далекоидущие выводы относительно общих причин аутизма, основываясь на обследовании сравнительно небольшой группы детей, страдающих аутизмом (59), и еще меньшей контрольной группы (38) – то есть всего 97 участников обследования? Ответ: да, могут. Ученые пришли к заключению, что вероятность наблюдения различий в общем объеме мозга, которые они обнаружили в двух своих выборках, составляла бы 2 из 1000 (p = 0,002), если на самом деле в совокупности в целом не существует никакой разницы в объеме мозга между детьми-аутистами и здоровыми детьми.