Голая статистика. Самая интересная книга о самой скучной науке, Уилан Чарльз

Голая статистика. Самая интересная книга о самой скучной науке

на обложку

Уилан Чарльз

Шрифт:

Я обратился к оригинальному исследованию, результаты которого были опубликованы в журнале Archives of General Psychiatry {62} . Методы, использованные в нем, ничуть не сложнее уже освоенных нами концепций. Приведу краткий обзор подоплеки этого социально и статистически значимого результата. Во-первых, вы должны признать, что каждая группа детей, 59 из которых страдают аутизмом, а 38 здоровы, представляет собой довольно крупную выборку, сформированную из соответствующих им совокупностей, то есть всех детей-аутистов и всех здоровых детей. Эти выборки достаточно большие для того, чтобы можно было применить центральную предельную теорему. Если вы уже подзабыли, в чем ее суть, я вам напомню: 1) средние значения выборок из какой-либо совокупности будут распределены примерно по нормальному закону вблизи среднего значения соответствующей совокупности; 2) можно ожидать, что среднее значение и среднеквадратическое (стандартное)

отклонение выборки будут примерно равняться среднему значению и среднеквадратическому отклонению совокупности, из которой выборка извлечена; и 3) примерно 68 % средних значений выборок будут отстоять от среднего значения соответствующей совокупности на расстояние, не превышающее одной стандартной ошибки, примерно 95 % – на расстояние, не превышающее двух стандартных ошибок, и т. д.

Heather Cody Hazlett et al., Early Brain Overgrowth in Autism Associated with an Increase in Cortical Surface Area before Age 2 Years, Archives of General Psychiatry 68, no. 5 (May 2011): 467–76.

Проще говоря, любая выборка должна быть очень похожа на совокупность, из которой она сформирована. Несмотря на то что все выборки несколько отличаются друг от друга, среднее значение надлежащим образом сформированной выборки довольно редко будет значительно отклоняться от среднего значения генеральной совокупности. Аналогично, можно ожидать, что две выборки, извлеченные из одной и той же совокупности, будут очень похожи друг на друга. Или, если представить ситуацию несколько иначе: две выборки со средними значениями, сильно разнящимися между собой, с наибольшей вероятностью сформированы из разных совокупностей.

Вот краткий пример, который должен быть понятен на интуитивном уровне. Допустим, ваша нулевая (основная) гипотеза гласит, что средний рост профессиональных баскетболистов равен среднему росту остальной части взрослого мужского населения. Вы формируете произвольным образом выборку из 50 профессиональных баскетболистов и выборку из 50 взрослых мужчин-неспортсменов. Допустим, что средний рост членов первой группы (баскетболисты) составляет 6 футов и 7 дюймов, а второй (небаскетболисты) – 5 футов и 10 дюймов (разница – 9 дюймов). Какова вероятность зафиксировать столь большую разницу между значениями среднего роста у этих двух выборок, если бы действительно (как мы предположили) средний рост профессиональных баскетболистов и всего остального взрослого мужского населения страны не отличался? «Нетехнический» ответ: чрезвычайно низкая [47] .

Существуют две возможные альтернативные гипотезы. Первая заключается в том, что профессиональные баскетболисты выше, чем мужское население в целом. Вторая – что средний рост профессиональных баскетболистов отличается от среднего роста мужского населения в целом (при этом не будем забывать о вероятности того, что рост профессиональных баскетболистов может в действительности быть меньшим, чем у некоторых обычных мужчин). Это различие не играет большой роли при выполнении проверки по критерию значимости и вычислении p-значения. Соответствующее объяснение можно найти в более подробных учебниках по статистике, однако это не играет особой роли для нашего обсуждения, имеющего более общий характер.

Базовая методология, использовавшаяся при выполнении исследования аутизма, точно такая же. В упомянутой нами статье сравниваются несколько показателей объема мозга у разных выборок детей. (Измерения выполнялись по методу визуализации с помощью магнитного резонанса у детей в возрасте двух, четырех и пяти лет.) Я сосредоточусь лишь на одном показателе: общем объеме мозга. Нулевая гипотеза исследователей, скорее всего, заключалась в том, что анатомические различия в головном мозге детей-аутистов и здоровых детей отсутствуют. Альтернативная гипотеза – что головной мозг детей-аутистов существенно отличается от головного мозга здоровых детей. Вывод, к которому пришли ученые, по-прежнему оставляет много вопросов, однако указывает, в каком направлении должны проводиться дальнейшие эксперименты.

В рассматриваемом нами исследовании средний объем головного мозга детей, страдающих аутизмом, составляет 1310,4 кубических сантиметра; средний объем головного мозга детей в контрольной группе равен 1238,8 кубических сантиметра. Таким образом, разница в среднем объеме головного мозга у этих двух групп составит 71,6 кубических сантиметра. Какова вероятность наблюдения такого результата, если бы на самом деле разницы в среднем объеме головного мозга у детей-аутистов и здоровых детей во всей совокупности не было?

Из материала предыдущей главы вы, возможно, помните, как вычислить стандартную ошибку для каждой выборки: s / n,

где s – среднеквадратическое отклонение данной выборки, а n – количество наблюдений. Соответствующие величины приведены в рассматриваемой нами статье. Стандартная ошибка для общего объема головного мозга 59 детей в выборке детей-аутистов составляет 13 кубических сантиметров, а 38 детей в контрольной группе – 18 кубических сантиметров. Согласно центральной предельной теореме, для 95 выборок из 100 среднее значение выборок будет отстоять от истинного среднего значения совокупности на расстояние, не превышающее двух стандартных ошибок (в ту или другую сторону).

Таким образом, на основании нашей выборки можно заключить, что в 95 случаях из 100 интервал 1310,4 кубических сантиметра ±26 (что равняется двум стандартным ошибкам) будет содержать средний объем головного мозга для всех детей, страдающих аутизмом. Это выражение называется доверительным интервалом. Мы можем с 95 %-ной уверенностью утверждать, что диапазон от 1284,4 до 1336,4 кубических сантиметра содержит средний общий объем головного мозга для детей-аутистов в их общей совокупности.

Используя ту же методологию, мы можем с 95 %-ной уверенностью утверждать, что интервал 1238,8 ± 36, или диапазон от 1202,8 до 1274,8 кубических сантиметра, будет включать средний объем головного мозга для здоровых детей в генеральной совокупности.

Да, вас, наверное, утомило обилие числовых показателей. Возможно, вы уже зашвырнули книгу в дальний угол [48] . Если же еще нет (или раскаялись и возобновили чтение), то должны были обратить внимание на то, что наши доверительные интервалы не перекрываются. Нижняя граница 95 %-ного доверительного интервала для среднего объема головного мозга детей-аутистов в общей совокупности (1284,4 кубических сантиметра) все же выше, чем верхняя граница 95 %-ного доверительного интервала для среднего объема головного мозга здоровых детей в общей совокупности (1274,8 кубических сантиметра), что иллюстрируется приведенной ниже диаграммой.

Сознаюсь, что однажды в отчаянии я изорвал одну книгу по статистике.

Это первый намек на вероятность существования какой-то анатомической особенности в головном мозге детей, страдающих аутизмом. Однако это всего лишь подсказка. Ведь сделанные заключения основываются на данных, описывающих небольшое число детей (менее 100 человек). Нельзя исключать вариант, что мы имеем дело с какими-то аномальными выборками.

Одна финальная статистическая процедура способна внести ясность в ситуацию. Если бы статистика была одним из олимпийских видов спорта, например фигурным катанием, то это было бы последним видом программы выступлений, после которой преданные болельщики бросают на лед букеты цветов. Мы можем точно вычислить вероятность наблюдения по меньшей мере столь же значительной разницы средних значений (1310,4 кубических сантиметра в сравнении с 1238,8 кубическими сантиметрами), если действительно между объемом головного мозга детей-аутистов и всех остальных детей в общей совокупности никакого отличия нет. Мы можем найти p-значение для наблюдаемой разницы в средних значениях.

Чтобы вы прямо сейчас не зашвырнули эту книгу в самый дальний угол комнаты, соответствующая формула будет приведена в приложении. Впрочем, на интуитивном уровне все должно быть достаточно понятно. Если мы извлекаем две большие выборки из одной и той же совокупности, то можно ожидать, что их средние значения будут очень близки между собой. Более того, в идеале они должны быть одинаковы. Если бы, например, средний рост выбранных мною 100 баскетболистов из НБА составлял 6 футов и 7 дюймов, то я был бы вправе ожидать, что в какой-нибудь другой случайной выборке 100 баскетболистов из НБА средний рост игроков будет близок к 6 футам и 7 дюймам. Ладно, возможно, средний рост игроков в этих двух выборках будет отличаться на один-два дюйма. Однако вероятность того, что он будет разниться на 4 дюйма, окажется низкой, а того, что на 6 или 8 дюймов, будет еще ниже. Мы можем вычислить стандартную ошибку для разности между средними значениями двух выборок, которая может служить мерой ожидаемого разброса (но в среднем) при вычитании среднего значения одной выборки из среднего значения другой. (Как указывалось ранее, соответствующая формула приводится в приложении к этой главе.) Важно то, что мы можем использовать эту стандартную ошибку для определения вероятности того, что две выборки сформированы из одной и той же совокупности. Принцип действия этого механизма таков.