Голая статистика. Самая интересная книга о самой скучной науке, Уилан Чарльз

Голая статистика. Самая интересная книга о самой скучной науке

на обложку

Уилан Чарльз

Шрифт:

Такой методологический подход достаточно необычен, поэтому приведу еще один пример. Опять же обратите внимание, что нулевая и альтернативная гипотезы логически дополняют друг друга. Если одна оказывается истинной, то другая таковой не является. Или если мы отвергаем одну гипотезу, то должны принять другую. Теперь еще один пример.

Нулевая гипотеза: лечение заключенных от наркозависимости не снижает вероятности их повторного ареста после выхода из тюрьмы.

Альтернативная гипотеза: лечение заключенных от наркозависимости снижает вероятность их повторного ареста после выхода из тюрьмы.

Данные (гипотетические): заключенных случайным образом разделили на две группы, «подопытная» группа проходила курс лечения от наркозависимости, а контрольная группа – нет. Через пять лет оказалось, что вероятность повторного ареста членов обеих групп примерно одинакова. То есть в этом случае мы не можем отвергнуть нулевую гипотезу [43] . Эти данные не дают нам повода отклонить исходное предположение о том, что лечение заключенных от наркозависимости не спасает их от повторного попадания за решетку.

С точки

зрения семантики мы еще не доказали, что нулевая гипотеза истинная (то есть что лечение заключенных от наркозависимости не имеет никакого эффекта). Такое лечение может оказаться чрезвычайно эффективным для какой-либо другой группы заключенных. Или, возможно, в этой подопытной группе значительно большее число заключенных совершили бы повторные преступления, если бы не прошли курс лечения от наркозависимости. В любом случае на основе собранных данных нам просто не удалось отвергнуть нулевую гипотезу. Существует аналогичная разница между «неспособностью отвергнуть» нулевую гипотезу и ее принятием. Сам по себе факт, что одному исследованию не удалось опровергнуть утверждение о том, что лечение от наркозависимости не помогает предотвратить повторный арест, еще не означает, что мы должны согласиться с тем, что лечение от наркозависимости бесполезно. С точки зрения статистики здесь имеет место существенная разница. С учетом сказанного следует отметить, что подобные исследования зачастую проводятся с целью информирования полиции, и тюремная администрация, которой приходится решать, как правильно распределить ресурсы, может считать лечение от наркозависимости неэффективным инструментом до тех пор, пока не убедится в обратном. В этом случае, как и в других при использовании статистических данных, следует полагаться на здравый смысл.

Это может показаться нелогичным, но исследователи часто формулируют нулевую гипотезу в надежде, что им удастся отвергнуть ее. В обоих приведенных выше примерах «успех» исследования (создание нового лекарства для профилактики малярии или снижение вероятности повторного ареста) подразумевал отказ от нулевой гипотезы. Сделать это на основе имеющихся данных удалось лишь в одном из случаев (лекарство для профилактики малярии).

В зале суда порогом для отмены презумпции невиновности является качественная оценка, что подсудимый «виновен ввиду разумных оснований для сомнения». Что именно означает в каждом конкретном случае такая формулировка, решает судья или присяжные заседатели. Статистика использует аналогичную основополагающую идею, но формула «виновен ввиду разумных оснований для сомнения» определяется не качественно, а количественно. Исследователи обычно спрашивают: если нулевая гипотеза истинна, то какова вероятность того, что мы наблюдаем такую картину данных по чистой случайности? Если мы воспользуемся приведенным в начале главы примером, то ученые-медики могут спросить: если это экспериментальное лекарство не способствует излечению сердечно-сосудистых заболеваний (нулевая гипотеза), то какова вероятность того, что состояние здоровья 91 из 100 пациентов, принимавших его, улучшилось, если учесть, что улучшение состояния здоровья было отмечено лишь у 49 из 100 пациентов, принимавших плацебо? Если имеющиеся в нашем распоряжении данные свидетельствуют о крайней маловероятности нулевой гипотезы (как в примере с экспериментальным лекарством), то мы должны отвергнуть ее и принять альтернативную гипотезу (о том, что экспериментальное лекарство способствует излечению от сердечно-сосудистых заболеваний).

С учетом этого давайте еще раз вернемся к скандалу, вызванному махинациями с результатами стандартизированных тестов в Атланте, о которых мы неоднократно упоминали в этой книге. Эти результаты привлекли к себе внимание контролирующих органов из-за высокого количества исправлений неправильных ответов на правильные. Понятно, что учащиеся, которым приходится сдавать стандартизованные тесты, время от времени исправляют свои ответы. Не исключено и то, что каким-то группам учащихся, прибегающих к таким исправлениям, особенно везет – и это вовсе не связано с какими-либо махинациями. Именно поэтому основная гипотеза сводится к тому, что результаты сдачи стандартизированных тестов в любом конкретном учебном округе правильны (с точки зрения закона) и что любые исправления – не более чем продукт случайного стечения обстоятельств. Мы ни в коем случае не хотим наказывать учеников, преподавателей или администраторов из-за того, что необычайно высокий процент учащихся внесли в свои листы с ответами разумные исправления, сделав это буквально за несколько минут до окончания важного государственного экзамена.

Но словосочетание «необычайно высокий» отнюдь не описывает того, что происходило в Атланте. Количество исправлений неправильных ответов на правильные в листах с ответами некоторых классов превышало норму данного штата на 20–50 среднеквадратических (стандартных) отклонений. (Чтобы было понятнее, что это означает, вспомним, что большинство наблюдений в любом распределении, как правило, отклоняется от среднего значения не более чем на два среднеквадратических отклонения.) Так какова же вероятность того, что учащимся в Атланте удалось по чистой случайности исправить столь большое количество неправильных ответов на правильные? Официальный представитель Министерства образования, который проанализировал эти данные, описал вероятность того, что картина, зафиксированная в Атланте, сложилась исключительно в силу случайного стечения обстоятельств и вовсе не является результатом махинаций, как примерно равную вероятности появления на трибунах стадиона Georgia Dome 70 000 зрителей ростом свыше семи футов {59} . Может такое случиться? Теоретически да, может. Насколько велика вероятность? Чрезвычайно мала!

Low Marks All Round, Economist, July 14, 2011.

Тем не менее власти штата Джорджия, столицей которого является Атланта, не смогли предъявить кому-либо обвинение в манипулировании результатами стандартизированных тестов, точно так же как мой преподаватель статистики не мог (и не должен был) вышвырнуть меня из школы только потому, что я сдал выпускной экзамен по статистике успешнее, чем промежуточный. Властям штата Джорджия не удалось доказать факт мошенничества с оценками стандартизированных тестов. Они, конечно, могли отвергнуть нулевую гипотезу, что эти результаты законны, причем «с высокой степенью уверенности» (это означало, что наблюдаемая

ими картина была почти невозможной в обычных условиях), и принять альтернативную гипотезу, согласно которой результаты сдачи стандартизованных тестов в Атланте стали следствием махинаций. (В официальных документах они, наверное, использовали более дипломатичную формулировку.) В ходе дальнейшего расследования удалось выявить факты мошенничества с оценками стандартизированных тестов. В объяснительных записках преподавателями приводились факты исправления ими неправильных ответов на правильные, заблаговременного ознакомления учащихся с правильными ответами, предоставления возможности отстающим ученикам списывать правильные ответы у отличников и даже указания учителем правильных ответов в тот момент, когда он останавливался возле парты ученика. Самым вопиющим примером махинаций было исправление ответов преподавателями непосредственно во время пикника, на который они собрались после экзаменов, прихватив с собой экзаменационные работы.

В примере с экзаменами в Атланте мы могли отвергнуть основную гипотезу («махинаций не было»), поскольку картина, зафиксированная в результате сдачи тестов, представлялась крайне маловероятной, если исходить из того, что обмана не было. Но насколько неправдоподобной должна быть нулевая гипотеза, чтобы мы могли ее отклонить и прибегнуть к какому-то альтернативному объяснению?

Одно из самых распространенных пороговых значений, используемых исследователями для отклонения нулевой гипотезы, – 5 % (его нередко представляют в форме десятичной дроби: 0,05). Данная вероятность известна как уровень значимости и представляет собой верхнюю границу вероятности возникновения некой картины данных в случае, если бы основная гипотеза оказалась верна [44] . Не спешите выражать свое возмущение: в действительности это не так сложно, как могло показаться на первый взгляд.

В статистике уровнем значимости называют вероятность отклонить нулевую гипотезу при условии, что она истинна. Это так называемая ошибка первого рода. Об этой ошибке см. далее. Прим. ред.

Что такое уровень значимости 0,05? Мы можем отвергнуть при нем основную гипотезу, если вероятность исхода, по крайней мере такого же экстремального, как тот, который мы наблюдали бы, если бы она была истинной, оказывалась меньше 5 %. Попытаюсь объяснить это положение на простом примере. Хоть я себя и ругаю, но вынужден опять вернуться к нашему пресловутому пропавшему автобусу. Предположим, вам поручено пролить свет на очередную ситуацию, в которую он угодил (честь выполнить эту важную миссию вам оказана, в частности, с учетом героических усилий, приложенных в предыдущей главе). На сей раз вы прикомандированы к группе исследователей Americans’ Changing Lives, которые предоставили вам чрезвычайно ценные данные, призванные помочь в выполнении важной миссии. В каждом из автобусов, арендованных организаторами исследования, находится примерно 60 пассажиров, поэтому мы можем рассматривать их как случайную выборку, сформированную из всей совокупности Americans’ Changing Lives. Итак, вас разбудили рано утром, сообщив о захвате одного из автобусов группой террористов (ярых поборников прав людей, страдающих ожирением) в районе Бостона [45] . Ваша задача – спрыгнуть с вертолета на крышу движущегося автобуса, проникнуть внутрь через аварийный выход и тайком определить, основываясь исключительно на собственных оценках веса пассажиров, являются ли они участниками исследования Americans’ Changing Lives. (Между прочим, этот сюжет ничуть не менее правдоподобен, чем сюжеты большинства приключенческих фильмов, зато гораздо более поучителен с образовательной точки зрения.)

Этот пример навеян реальными событиями. Понятное дело, многие подробности изменены исходя из соображений национальной безопасности. Что же касается меня, то я не могу ни подтвердить, ни отрицать в них своего участия.

После того как вертолет взлетает с базы войск спецназа, вам вручают автомат, несколько гранат, наручные часы (которые также могут выполнять функции видеокамеры с высоким разрешением) и вычисленные нами в предыдущей главе данные о среднем весе и стандартной ошибке для выборок, сформированных из участников исследования Americans’ Changing Lives. Любая случайная выборка из 60 его участников будет иметь ожидаемый средний вес 162 фунта и среднеквадратическое отклонение 36 фунтов, поскольку именно таковы среднее значение и среднеквадратическое отклонение для всех участников исследования (генеральной совокупности). С помощью этих даных вы можете вычислить стандартную ошибку для среднего значения выборок: s : n = 36 : 60 = 36 : 7,75 = 4,6. В центре управления миссией представленное ниже распределение выводится на внутреннюю поверхность сетчатки вашего правого глаза, чтобы вы могли использовать его в качестве справочной информации, после того как проникнете в автобус и будете тайно прикидывать вес всех его пассажиров.

Как следует из представленного распределения, можно ожидать, что средний вес приблизительно 95 % всех выборок из 60 человек, сформированных из участников исследования Americans’ Changing Lives, будет отстоять от среднего значения совокупности не более чем на две стандартные ошибки, то есть находиться в пределах от 153 фунтов до 171 фунта [46] . И наоборот, лишь в 5 случаях из 100 средний вес выборки из 60 человек, сформированной случайным образом из участников исследования Americans’ Changing Lives, окажется больше 171 фунта или меньше 153 фунтов. (Вы выполняете так называемую двустороннюю проверку гипотезы; разницу между «двусторонней» и «односторонней» проверками я разъясню в приложении , помещенном в конце главы.) Ваш руководитель из центра контртеррористических операций решил, что уровень значимости для вашей миссии равняется 0,05. Если средний вес 60 пассажиров в автобусе, захваченном террористами, окажется больше 171 фунта или меньше 153 фунтов, то вам придется отвергнуть нулевую гипотезу о том, что в автобусе едут участники исследования Americans’ Changing Lives, и принять альтернативную гипотезу, что в автобусе находятся 60 человек, направляюшихся в какой-то другой пункт назначения, и ждать дальнейших указаний.

Точнее говоря, 95 % средних значений всех выборок будут находиться в пределах 1,96 стандартной ошибки выше или ниже среднего значения совокупности.