Том13. Абсолютная точность и другие иллюзии. Секреты статистики
Шрифт:
Расчеты могут показаться вам излишне сложными, но эта величина обладает определенным преимуществом: она не требует моделирования распределения для случая, когда нулевая гипотеза верна (так называемого эталонного распределения). Эта величина называется критерий х2 (хи-квадрат). Ее впервые использовал в 1900 году Карл Пирсон, сыгравший важную роль в истории статистики. Мы уже упоминали его имя, когда говорили о коэффициенте корреляции.
Для обычных статистических тестов нет необходимости в моделировании распределения величины. Вместо этого оно выводится с
* * *
СЛИШКОМ МАЛОЕ ОТКЛОНЕНИЕ ТОЖЕ ПОДОЗРИТЕЛЬНО
Если мы бросим идеально сбалансированную игральную кость 20000 раз, то каждое из возможных значений выпадет примерно 20 000/6 = 3333 раза. Отклонение фактической и теоретической частоты редко превышает 250. Это происходит всего один раз на каждые 100000 симуляций.
Однако также весьма необычно, если фактические значения очень близки к теоретическим. Допустим, игральная кость была брошена 20000 раз и были получены следующие результаты:
Есть основания подозревать, что эта информация недостоверна, так как столь малое отклонение фактической и теоретической частоты встречается всего один раз на миллион.
Фишер обнаружил любопытное совпадение между экспериментальными данными, опубликованными Менделем в его знаменитых работах о наследственности, и ожидаемыми теоретическими значениями. Удивительнее всего то, что Мендель ошибочно спрогнозировал результаты некоторых экспериментов, но полученные данные тем не менее были подозрительно близки к прогнозным значениям. По мнению Фишера, данные скорректировал необязательно сам Мендель, а кто-то из его ассистентов, который недобросовестно отнесся к работе и решил подменить реальные данные именно теми, которые ожидал увидеть Мендель.
Этот вопрос спровоцировал бурное обсуждение. Эта задача относится не только к теории вероятности, но также к генетике и ботанике, так как в ней идет речь о фундаментальном механизме наследования признаков у растений. Споры не утихали длительное время, но какой-то определенный итог этих дискуссий подвести трудно. Стороны сходятся на том, что нет четких доказательств того, что Мендель или кто-то еще скорректировал результаты эксперимента.
* * *
Как правило, выбирается определенное p-значение, чаще всего 5 %, и если полученное на практике p-значение оказалось меньше, то нулевая гипотеза отвергается, в противном случае — нет. Это значение называется уровнем значимости.
Конечно, всем нам нравятся четкие и простые правила, но было бы неразумно выбрать одно универсальное значение и применять его всегда вне зависимости от контекста. Выбор граничного значения равносилен выбору вероятности того, что мы ошибочно отвергнем нулевую гипотезу. Вероятность ошибки, которую будет разумно выбрать, зависит от ситуации и возможных последствий ошибки.
Предположим, как-то утром, выходя из дома, мы смотрим прогноз погоды и решаем, что вероятность дождя равна 10 %. Стоит ли взять с собой зонтик? Если мы не возьмем с собой зонтик и примем 10-процентный риск попасть под дождь, никому из нас это не покажется неразумным. Если мы ошибемся, то потеряем немного (разве что слегка намокнем). Также следует учесть, что ходить весь день с зонтиком достаточно неудобно.
Другой пример. Мы едем по второстепенной дороге, на которой очень мало машин. Мы замечаем, что на подъеме, где не видно встречную полосу, есть небольшая выбоина. Ее можно объехать, приняв немного левее. Однако мы не станем этого делать. Вероятность того, что по встречной полосе этой пустынной дороги проедет автомобиль, невелика, а вероятность того, что мы
Очевидно, что вероятность ошибки, к которой мы готовы при принятии решения, зависит от обстоятельств и от возможных последствий этой ошибки.
Приведем другой пример, также связанный с дорожным движением, а именно с радарами для измерения скорости проезжающих машин. Хорошо известно, что эти радары, как и любые другие приборы, имеют определенную погрешность измерения. Если они показывают, что скорость машины равна 120 км/ч, возможно, что фактическая скорость равна 119 или 122 км/ч. По этой причине, если на дороге установлено ограничение скорости в 120 км/ч, водителей штрафуют только тогда, когда их скорость превышает ограничение на определенную величину. Это делается для того, чтобы исключить возможное влияние погрешности измерения и гарантировать, что водитель действительно ехал с превышением. Если будет выбрано значение, для которого доля ошибочных значений будет равна 5 % (таким образом, в 5 % случаев будут оштрафованы водители, которые не превышали скорость), это вызовет жаркие споры, ведь каждый день сотни людей будут незаслуженно получать штрафы.
Подведем итог. Выбор граничного значения нельзя делать только с помощью методов статистики; нужно рассматривать конкретную ситуацию. Когда проводится эксперимент, в котором сравнивается эффективность нового и существующего лекарств, выбор граничного значения 0,05 означает, что с вероятностью в 5 % будет сделан ошибочный вывод об эффективности лекарства. Какие последствия это повлечет? Имеет ли новое лекарство серьезные побочные эффекты? Дороже ли новое лекарство, чем то, что уже используется? Ответы на эти вопросы крайне важны при выборе оптимального граничного значения.
Однако верно и то, что во многих случаях значение 0,05 выбирается без какого-либо анализа. Это происходит потому, что для этого значения уже рассчитаны различные статистические показатели, которые можно найти в справочных таблицах. Когда много лет назад эти величины рассчитывались с помощью примитивных средств, в таблицы заносились лишь значения, соответствующие определенным вероятностям, в частности 0,001; 0,005; 0,01; 0,05; 0,10. Из возможных табличных значений в качестве границы, отделяющей «обычное» от «необычного», чаще всего выбиралось именно 0,05. Преимущество этого значения в том, что это круглое число в нашей десятичной системе счисления. Если бы у нас на руках было по шесть пальцев, то в качестве граничного значения было бы естественно выбрать 0,06.
Глава 5
Что лучше? Что эффективнее? Как формировать выборки для ответов на подобные вопросы
Статистику необходимо использовать тогда, когда для ответа на вопрос нужно собрать и проанализировать данные. К таким вопросам относятся, например, вопросы об эффективности вакцины или лекарства, о прочности нового способа сварки и другие.
Как правило, сбор данных — трудоемкая и дорогостоящая операция. Следует тщательно продумать, каков оптимальный способ решения этой задачи, позволяющий потратить минимум ресурсов. Кроме того, почти никогда не удается получить все необходимые данные и нужно знать, как извлечь из них максимальную выгоду. Не стоит забывать и о вариации данных, которые не подчиняются строгим математическим законам, и при одних и тех же исходных данных результаты могут различаться.
Если нужно ответить на вопрос, снижает ли регулярный прием определенной дозы аспирина вероятность инфаркта, это можно сделать на основе рассуждений о действии аспирина на организм, однако во многих случаях реальность преподносит немало сюрпризов. Точнее всего на этот вопрос можно ответить, если собрать экспериментальные данные. Нужно сформировать две группы людей, обладающих как можно более схожими признаками, одной группе прописать аспирин, другой — нет, после чего сравнить результаты. Нам известно, что не все участники исследования одинаковы, поэтому реакция на аспирин у них будет различаться. Нужно учесть все эти факторы и сделать корректные выводы, указав степень их надежности. Именно этим и занимается статистика.