Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:
1. Если две выборки сформированы из одной и той же совокупности, мы имеем все основания предполагать, что разница между их средними значениями равна нулю.
2. Согласно центральной предельной теореме, в повторных выборках разница между этими двумя средними значениями будет распределена примерно по нормальному закону. (Итак, вы уже влюбились в центральную предельную теорему или еще нет?)
3. Если обе выборки действительно сформированы из одной и той же совокупности, то приблизительно в 68 случаях из 100 разница между их средними значениями будет отличаться от нуля не более чем на одну стандартную ошибку, в 95 случаях из 100 – не более чем на две стандартные ошибки, а примерно в 99,7 случая из 100 – не более чем на три стандартные ошибки. Так вот что побудило исследователей сделать вывод, о котором мы узнали из статьи об аутизме, опубликованной в The Wall Street Journal.
Как указывалось ранее, разница в среднем объеме головного мозга между выборкой детей-аутистов и контрольной группой составляет 71,6 кубических сантиметра. Стандартная
Как отмечалось выше, авторы статьи, опубликованной в Archives of General Psychiatry, сообщают о p– значении, равном 0,002. Теперь вы понимаете, откуда взялась эта величина.
Несмотря на все достоинства статистического вывода, он не лишен недостатков. И они становятся очевидны из примера, приведенного в начале главы. Если вы помните, в нем речь шла о моем преподавателе статистики, заподозрившем меня в обмане. Процесс статистического вывода основывается на понятии вероятности, а вовсе не на абсолютной и не вызывающей ни малейшего сомнения достоверности. Таким образом, когда речь идет о проверке той или иной гипотезы, мы имеем дело с фундаментальной дилеммой.
Эта статистическая реальность заявила о себе во весь голос в 2011 году, когда Journal of Personality and Social Psychology готовился опубликовать одну научную статью, которая на первый взгляд ничем особенным не выделялась {63} . Некий профессор Корнелльского университета предложил нулевую гипотезу, а затем, на основе полученных им экспериментальных результатов, отверг ее с уровнем значимости 0,05. Этот результат произвел настоящий фурор в научных кругах, а также широко освещался в ведущих средствах массовой информации, таких как The New York Times.
63
Benedict Carey, Top Journal Plans to Publish a Paper on ESP, and Psychologists Sense Outrage, New York Times, January 6, 2011.
Достаточно сказать, что статьи в Journal of Personality and Social Psychology обычно не привлекают к себе внимания СМИ. Что же вызвало на сей раз столь повышенный интерес прессы? Упомянутый мной исследователь проверял способность человека к экстрасенсорному восприятию (Extra Sensory Perception – ESP). Основная гипотеза ученого отрицала существование ESP; альтернативная подтверждала. Чтобы изучить вопрос, исследователь предложил большой выборке людей, которых он пригласил поучаствовать в эксперименте, рассмотреть два «занавеса», представленных на экране монитора. Компьютерная программа случайным образом помещала некое эротическое изображение то за одним, то за другим «занавесом». В ходе повторяющихся попыток испытуемым удалось правильно выбрать «занавес», за которым скрывалось эротическое изображение, в 53 случаях из 100, тогда как, согласно теории вероятностей, это должно происходить лишь в 50 случаях из 100. Достаточно большой размер выборки позволил ученому отклонить нулевую гипотезу и принять альтернативную. Решение опубликовать статью об этом эксперименте подверглось широкой критике на том основании, что какое-то одно статистически значимое событие вполне может оказаться следствием чистой случайности, особенно при отсутствии каких-либо других свидетельств, подтверждающих или даже объясняющих полученный результат. Статья в The New York Times так резюмировала критические высказывания: «Утверждения, которые бросают вызов практически всем законам науки, по определению являются экстраординарными и, как правило, требуют экстраординарных, неопровержимых доказательств. Нежелание учитывать это обстоятельство – как того требует общепринятый научный метод – делает результаты многих исследований гораздо значимее, чем они есть на самом деле».
Одним из достойных ответов на подобную критику был бы выбор более жесткого порога для определения статистической значимости, например 0,001 [49] . Однако это порождает собственные проблемы. Выбор надлежащего уровня значимости в любом случае предполагает определенный компромисс.
Если наше «бремя доказательства», которое позволило бы отвергнуть основную гипотезу, будет чересчур низким (например 0,1), то нам придется периодически отклонять нулевую гипотезу, хотя на самом деле она верна (я подозреваю, что именно так и произошло при исследовании ESP). На языке статистики это называется ошибкой первого рода. Рассмотрим пример из судебной практики в США, где нулевая гипотеза заключается в том, что подсудимый (ответчик) невиновен, а порогом, когда она отвергается, является «критерий доказанности при отсутствии обоснованного сомнения» (то есть подсудимый признается виновным при отсутствии обоснованного сомнения в его невиновности). Допустим, мы решили ослабить этот порог, обозначив его, например, как «сильное подозрение, что подсудимый все же совершил данное преступление». Это должно гарантировать, что за решеткой окажется большее число настоящих преступников – а вместе с ними и большее число ни в чем не повинных людей. В статистическом контексте это эквивалентно использованию относительно низкого уровня значимости (например 0,1).
49
Еще одним ответом могла бы стать попытка повторить полученные результаты в дополнительных исследованиях.
Ладно, «в 1 случае из 10» – не такое уж маловероятное событие. Рассмотрим эту проблему в контексте утверждения нового лекарства от рака. На каждые десять препаратов, которые мы одобряем с этим относительно низким «бременем статистического доказательства», один на практике оказывается неэффективным, а в процессе тестирования показывает обнадеживающие результаты лишь по чистой случайности. (Или, если воспользоваться примером из судебной практики, из каждых десяти подсудимых, признанных виновными, один фактически невиновен.) Ошибка первого рода заключается в ошибочном отказе от основной гипотезы. Иногда это называют «ложным позитивом», хотя употребление такого термина кажется несколько парадоксальным. Вот один способ примириться с подобным жаргоном. Когда вы приходите к врачу, чтобы выяснить, не страдаете ли вы некой болезнью, основная гипотеза заключается в том, что вы ею не страдаете. Если результаты анализов позволяют отвергнуть нулевую гипотезу, то врач говорит, что у вас положительный результат анализов. А если у вас положительный результат анализов, хотя в действительности вы не больны, то это и есть случай «ложного позитива».
Как бы то ни было, чем ниже «статистическое бремя» для отклонения нулевой гипотезы, тем выше вероятность «ложного позитива». Очевидно, что мы предпочли бы не утверждать неэффективные лекарства от рака и не отправлять невинных людей за решетку.
Но здесь есть один нюанс. Чем выше порог для отказа от нулевой гипотезы, тем вероятнее, что нам не удастся отвергнуть ту нулевую гипотезу, которую на самом деле следовало было бы отвергнуть. Если бы нам потребовалось не менее пяти свидетелей, чтобы признать виновным каждого обвиняемого, то на свободе оказалось бы немалое число настоящих преступников. (Разумеется, при этом за решетку не угодили бы многие невиновные люди.) Если при клинических испытаниях всех новых лекарств от рака мы примем уровень значимости 0,001, то мы действительно минимизируем утверждение неэффективных препаратов. (В этом случае будет лишь 1 шанс из 1000 ошибочно отвергнуть нулевую гипотезу, которая заключается в том, что испытываемое лекарство эффективно не более чем плацебо.) Однако при этом возникает риск не допустить на рынок много эффективных лекарств, поскольку мы установили очень высокую планку для их утверждения. На языке статистики это называется ошибкой второго рода, или «ложным негативом» [50] .
50
Ошибка второго рода – это вероятность принятия нулевой гипотезы тогда, когда она неверна. Прим. ред.
Какая же из двух ошибок хуже? Это зависит от конкретных обстоятельств. Самое важное – что вы признаете необходимость компромисса. В статистике «бесплатный завтрак» невозможен. Рассмотрим перечисленные ниже нестатистические ситуации, каждая из которых предполагает достижение определенного компромисса между ошибками первого и второго рода.
1. Спам-фильтры. Основная гипотеза: любое конкретное сообщение, приходящее по электронной почте, не спам. Ваш спам-фильтр отыскивает признаки, которые могут использоваться для отказа от нулевой гипотезы для того или иного конкретного сообщения, например огромные списки рассылки или наличие фраз типа «удлинение пениса». Ошибка первого рода предполагает отбраковку сообщения, которое на самом деле не является спамом («ложный позитив»). Ошибка второго рода предполагает пропуск спама через фильтр и его попадание в ваш почтовый ящик («ложный негатив»). Сравнивая последствия от потери важного сообщения и незначительное раздражение, вызванное получением совершенно не интересующего вас письма, содержащего, скажем, рекламу БАДов, большинство людей, скорее всего, предпочтут терпеть неудобства, обусловленные ошибками второго рода. Оптимально разработанный спам-фильтр должен требовать относительно высокой степени определенности, прежде чем отвергнуть нулевую гипотезу и заблокировать соответствующее сообщение.
2. Проверка на наличие раковых заболеваний. Существуют многочисленные тесты для раннего выявления раковых заболеваний, например маммография (рак молочной железы), ПСА-тест (рак простаты) и даже магнитно-резонансная визуализация (МРТ) всего тела для выявления всего, что может вызывать подозрения. Основная гипотеза для каждого, кто проходит такое обследование, заключается в том, что он не болен раком. Проверка на наличие раковых заболеваний используется для того, чтобы отвергнуть нулевую гипотезу, если результаты тестирования вызывают подозрения. Соответствующее предположение всегда исходит из того, что ошибка первого рода («ложный позитив», что в конечном счете означает отсутствие заболевания) безусловно предпочтительнее ошибки второго рода («ложный негатив», который означает, что диагностирование не выявило заболевания, которое на самом деле имеется). Проверка на наличие раковых заболеваний является полной противоположностью примеру со спам-фильтром. Врачи и пациенты готовы мириться с умеренным количеством ошибок первого рода («ложный позитив»), чтобы избежать вероятности появления ошибок второго рода («ложный негатив»), когда пациенту не диагностируется раковое заболевание, хотя в действительности он болен. Впрочем, в последнее время специалисты в области политики охраны здоровья подвергают сомнению такой подход из-за высоких издержек и побочных эффектов, связанных с «ложными позитивами».