Том13. Абсолютная точность и другие иллюзии. Секреты статистики
Шрифт:
Умеете ли вы выбирать дыни?
Задача о выборе спелой дыни еще больше похожа на задачу о дегустаторе чая. Некоторые люди утверждают, что умеют выбирать спелую дыню по весу, на звук и так далее. Чтобы определить, так ли это на самом деле, можно выбрать пять дынь случайным образом и предложить знатоку выбрать из них одну, по его мнению, самую спелую. Далее нужно взять по одной дольке из каждой дыни и снова предложить выбрать самую спелую, но теперь уже на вкус. Разумеется, в обоих случаях знаток должен указать одну и ту же дыню. Недостаток этого эксперимента заключается в том, что вероятность случайного угадывания равна 1/5 (20 %), следовательно, результат будет ненадежным. Однако вероятность случайного угадывания в двух случаях из двух составляет
Будут ли цветы стоять дольше, если добавить в воду аспирин?
По-видимому, аспирин полезен не только для человека. Достаточно распространено мнение, что цветы будут стоять дольше, если добавить в воду аспирин. Чтобы проверить это экспериментально, можно взять два букета по 20 цветов (лучше если все цветы будут разными, то есть выбрать по две розы, две гвоздики, две маргаритки и так далее). Далее нужно поставить букеты в вазы и убедиться, что они находятся в абсолютно одинаковых условиях. Единственное различие будет заключаться в том, что в воду в одной вазе мы добавим немного аспирина, в другой — нет.
Если эффект от аспирина отсутствует, вероятность того, что первым завянет определенный цветок, равна 50 %. Следовательно, крайне маловероятно, что во всех 20 случаях дольше простоят цветы в той вазе, куда был добавлен аспирин. Вероятность случайного совпадения равна вероятности выпадения решки 20 раз подряд при 20 бросках монеты. Применив правило «и» (см. главу 2), получим: 0,520 = 9,5·10– 7 (порядка одной миллионной). Если цветы в вазах с аспирином будут стоять дольше, это будет очевидно доказывать эффективность аспирина.
Вероятность того, что цветы в воде, куда был добавлен аспирин, будут стоять дольше минимум в 19 случаях, равна 2 на 10000; минимум в 15 случаях — порядка 2 %; в 14 случаях — почти 6 %. Следовательно, неудивительно, что цветы будут стоять дольше в воде, куда был добавлен аспирин, в 14 случаях и менее, даже если аспирин не оказывает абсолютно никакого эффекта. Приняв вероятность ошибки равной 5 % (эта величина называется уровнем значимости), аспирин следует считать эффективным, если цветы будут стоять дольше минимум в 15 случаях из 20.
Этот эксперимент очень прост, и в нем не учитывается, на сколько дольше сохраняется один цветок по сравнению с другим — на день, два дня или на неделю. Можно использовать и другие показатели, например критерий Уилкоксона, в котором учитывается разница во времени для каждой пары цветов. Однако важнее, чтобы эксперимент был проведен корректно, а его выводы не экстраполировались на другие случаи, нежели какой именно критерий мы выберем.
Действительно ли дорогие батарейки работают дольше?
Когда мы покупаем бытовую технику, то помимо прочих факторов учитываем и ее внешний вид. Однако при покупке батареек единственный важный параметр — это время их работы.
Любопытно проанализировать разницу в ценах между одинаковыми батарейками в зависимости от марки или магазина, где они были куплены. Обычные батарейки с напряжением 1,5 В от известных производителей могут стоить в два раза дороже батареек, купленных в дешевом супермаркете (и это совсем не значит, что там продаются только плохие батарейки). Также верно и то, что в последнее время известные производители предлагают различные скидки, и разница в цене уже не столь велика — рынок диктует свои правила.
Правда ли, что дорогие батарейки работают дольше? И если они действительно работают дольше, то выгоднее ли покупать их? Иными словами, компенсирует ли разница во времени работы разницу в цене? Чтобы ответить на эти вопросы, нужны данные. Необходимо тщательно продумать алгоритмы сбора данных и проанализировать их нужным образом, чтобы получить достоверный результат. Иначе говоря, нужно использовать методы статистики. Задачу непросто решить
* * *
КАК РАЗДЕЛИТЬ 20 МЫШЕЙ НА ДВЕ РАВНЫЕ ГРУППЫ СЛУЧАЙНЫМ ОБРАЗОМ?
Допустим, мы хотим провести эксперимент на лабораторных мышах, чтобы сравнить, как различные диеты (обозначим их А и В) влияют на выносливость. У нас есть 20 мышей приблизительно одного возраста, их остальные характеристики также примерно равны. Мы делим их на две группы по 10 и кормим мышей каждой группы в соответствии с определенной диетой. По прошествии нескольких месяцев мы проводим эксперимент: помещаем мышей в воду и замеряем, сколько времени они смогут удержаться на поверхности, после чего вытаскиваем их из воды. Эксперимент показывает, что мыши, которых кормили по диете В, более выносливы, чем те, которых кормили по диете А: разница во времени, в течение которого мыши удерживались на поверхности воды, является статистически значимой и однозначно свидетельствует в пользу диеты В. Кажется, вы совершили открытие. Но как именно вы поделили мышей на группы? Разумеется, случайным образом: вы засовывали руку в клетку и «случайным образом» доставали 10 мышей по очереди. Эти мыши составили группу А, те, что остались в клетке, — группу В.
Что-то не так? Разумеется. Мыши были разделены на группы не случайным образом. Когда мы достаем мышей из клетки, то, скорее всего, сначала мы достанем самых медленных, то есть самых слабых. Эти мыши образуют группу А, мыши из которой по итогам эксперимента оказались менее выносливыми. Но почему эти мыши оказались более медленными? Причина в диете или в том, что мы изначально собрали более медленных мышей в одной группе? Определить это нельзя. Вывод: важно гарантировать, что принцип формирования групп полностью случаен, например с помощью случайных чисел, бумажек или другим похожим способом. Если группы были сформированы не случайно, эту ошибку очень трудно исправить.
* * *
1. Время работы и дорогих, и дешевых батареек варьируется. Их нельзя сравнивать по одной, так как время их работы гарантированно будет отличаться (если измерения будут проводиться с достаточной точностью), но это не означает, что если одна батарейка конкретного типа работает дольше, то и все батарейки этого типа будут в среднем работать дольше.
2. Если мы сформируем выборку батареек каждого типа и сравним среднее время работы по выборкам, то разница между средними значениями по выборкам также не будет однозначно свидетельствовать в пользу тех или иных батареек. Если обе группы будут состоять из батареек одной и той же марки, то и в этом случае среднее время работы в каждой группе будет различаться. Необходимо, чтобы разница во времени работы была статистически значимой.
3. Батарейки используются в разных устройствах и в разных режимах. Может оказаться так, что в одних устройствах они будут работать одинаковое время, в других — разное.
4. Измерить время работы батареек непросто. Мы не можем непрерывно день и ночь наблюдать за работой устройства.
Можно выбрать определенное устройство и сравнить время работы для выборки дорогих и дешевых батареек. Можно подключить батарейку к лампочке и часам (электронные часы в этом случае не подходят) так, как показано на рисунке. Когда батарейка разрядится, стрелки часов остановятся, и мы сможем точно определить время работы батарейки. Нужно производить наблюдения минимум 1 раз в 12 часов, но в этих условиях батарейки проработают недолго.
Схема электрической цепи для измерения времени работы батарейки.
Для анализа полученных данных всегда рекомендуется использовать их графическое представление. Для небольшого объема данных, как в этом случае (например, для 10 батареек каждого типа), достаточно точечной диаграммы. Может случиться, что различия будут незаметны или диаграмма не позволит сделать однозначные выводы. Статистические тесты помогут нам подтвердить начальные предположения: результаты тестов не могут противоречить диаграмме.