Голая статистика. Самая интересная книга о самой скучной науке, Уилан Чарльз

Голая статистика. Самая интересная книга о самой скучной науке

на обложку

Уилан Чарльз

Шрифт:

Программы статистического оценивания предлагают совокупность инструментов, позволяющих обособить влияние активирования, когда невозможно установить причину и следствие. Ниже описано, как Джонатан Клик и Александер Табаррок, исследователи из Пенсильванского университета и Университета Джорджа Мейсона, изучали влияние наращивания численности полицейских на улицах на уровень преступности. Стратегия их исследования предусматривала использование системы оповещения о терроризме (terrorism alert system). Если конкретнее, то полицейское управление Вашингтона в дни «повышенной опасности терроризма» выводит на улицы определенных районов города дополнительные наряды полиции, поскольку столица США является естественной мишенью терроризма. Мы можем предположить, что между уличной преступностью и угрозой терроризма нет никакой зависимости, поэтому такое увеличение количества полицейских на улицах Вашингтона не связано с уровнем обычной преступности, то есть обусловлено «внешними» причинами. Самым ценным стало то, что исследователи на основе естественного эксперимента смогли ответить на вопрос: что происходит с обычной преступностью в дни «повышенной опасности терроризма»?

Ответ оказался таким. Количество преступлений, совершенных в дни «оранжевой» угрозы (высокая опасность и использование дополнительных нарядов полиции), было примерно на 7 % ниже, чем в дни, когда уровень террористической угрозы был «желтым» (повышенная опасность, но никаких дополнительных мер по обеспечению правопорядка не принимается). Авторы также пришли к выводу, что самое резкое снижение уровня преступности наблюдалось в полицейском округе, который пользуется самым пристальным вниманием со стороны полиции в дни высокой опасности терроризма (этот округ включает Белый дом, Капитолий и Эспланаду [73] ). Важный вывод заключается в том, что мы можем ответить на сложные социально значимые вопросы, если подходить к этому делу с умом. Ниже перечислены некоторые из наиболее типичных подходов к обособлению влияния активирования.

Эспланада – отрезок музейно-парковой зоны в центре Вашингтона между Капитолием и памятником Джорджу Вашингтону. Прим. перев.

Статистический управляемый эксперимент. Самый простой способ создать подопытную (по какому-либо методу активирования) и контрольную группы – это… создать подопытную и контрольную группы. Но у этого подхода есть две крупные проблемы. Во-первых, существует много видов экспериментов, которые мы не можем проводить на людях. И это ограничение (я надеюсь) в обозримом будущем никуда не денется. Таким образом, мы можем проводить управляемые эксперименты на людях лишь тогда, когда у нас есть основания полагать, что соответствующее активирование принесет потенциально положительный результат. Зачастую у нас такой уверенности нет, именно поэтому нам необходимы стратегии, о которых будет рассказано в этой главе.

Во-вторых, люди отличаются между собой гораздо больше, чем лабораторные крысы. На эффект воздействия, который мы проверяем, вполне могут наложиться другие различия в испытуемой и контрольной группе: там обязательно окажутся высокие люди и «коротышки», больные и здоровые, мужчины и женщины, преступники и законопослушные граждане, алкоголики и трезвенники, банкиры и малообеспеченные люди и т. п. Как мы можем гарантировать, что различия по этим и другим характеристикам не скажутся на результатах тестирования? У меня есть для вас хорошая новость: это один из тех редких случаев жизни, когда наилучший подход предполагает минимум усилий! Оптимальный способ создания любой подопытной группы, которая подвергается активированию, и контрольной группы заключается в случайном (рандомизированном) распределении по ним участников исследования. Прелесть рандомизации в том, что она приведет к более или менее равномерному распределению между этими двумя группами переменных, не связанных с активированием, – как очевидных характеристик, таких как пол, расовая принадлежность, возраст и образование, так и ненаблюдаемых характеристик, которые могли бы исказить интересующие нас результаты.

Это можно представлять себе так. Если в нашей большой выборке присутствуют 1000 женщин, то после того как мы произвольно разделим ее на две группы, в каждой из групп, скорее всего, окажется по 500 женщин. Разумеется, утверждать наверняка это нельзя, но и здесь теория вероятностей придет нам на помощь. Вероятность того, что в какой-то из двух групп будет непропорционально большое число женщин (или непропорционально большое число людей с какой-либо другой характеристикой), очень мала. Если, например, в выборке из 1000 человек половину составляют женщины, то вероятность того, что в какой-то из двух групп окажется менее 5 женщин, будет меньше 1 %. Понятно, что чем больше выборка, тем эффективнее (с точки зрения создания похожих, в широком смысле, групп) рандомизация.

Медицинские испытания, как правило, стремятся проводить в духе рандомизированных управляемых экспериментов. В идеале они представляют собой двойное контрольное (слепое) испытание; это означает, что ни пациент, ни врач не знают, кто получает лечение, а кто – плацебо. Разумеется, двойное контрольное испытание невозможно, когда речь идет о хирургических процедурах (надеюсь, кардиохирургу будет заранее известно, к каким из пациентов применяется операция шунтирования). Хотя даже в этом случае иногда удается держать пациентов в неведении относительно того, к какой именно группе (подопытной или контрольной) они относятся. Одно из моих любимых исследований предполагало оценивание определенного вида коленной хирургии, призванной облегчить боль. Участникам «лечебной» группы делали соответствующую хирургическую операцию на колене. А членам контрольной группы хирург, имитируя выполнение операции, делал три небольших надреза в области колена пациента [74] . Оказалось, что реальная хирургическая операция была ненамного эффективнее, чем мнимая {86} .

Участники этого эксперимента знали, что участвуют в клиническом испытании и что им могут сделать фиктивную хирургическую операцию.

Gina Kolata, Arthritis Surgery in Ailing Knees Is Cited as Sham, New York Times, July 11, 2002.

Рандомизированные статистические исследования могут применяться для тестирования некоторых интересных явлений. Например, улучшают ли постхирургические исходы молитвы людей, незнакомых с прооперированными? Разумные люди по-разному относятся к религии, но авторы исследования, результаты которого были опубликованы в American Heart Journal, провели управляемый эксперимент, который должен был ответить на вопрос, будет ли меньше послеоперационных осложнений у больных, перенесших операцию шунтирования на сердце, если большая группа совершенно незнакомых им людей будет молиться за их скорейшее выздоровление {87} . В исследовании участвовали 1800 пациентов и членов трех религиозных общин со всей страны. Пациентов, перенесших операцию коронарного шунтирования, разделили на три группы: за одну группу никто не молился; за вторую молились, и им сообщили об этом; за третью молились, но ее участникам сказали, что за них могут молиться или не молиться (таким образом обеспечивалась управляемость плацебо-эффекта молитвы). Тем временем членов религиозных конгрегаций попросили молиться за определенных пациентов по их имени и первой букве фамилии (например, Чарли У.). Какие именно молитвы они будут произносить, прихожане решали самостоятельно; единственное условие, чтобы молитва содержала фразу «за успешную хирургическую операцию с быстрым выздоровлением и без осложнений».

Benedict Carey, Long-Awaited Medical Study Questions the Power of Prayer, New York Times, March 31, 2006.

Ну и?.. Станут ли молитвы экономически эффективным решением проблем здравоохранения в Америке? Наверное, нет. Исследователи не обнаружили какой-либо разницы в частоте осложнений в течение тридцатидневного послеоперационного периода между теми, за кого молились, и теми, за кого не молились. Критики этого эксперимента указывали на переменную, которую не учли ученые: молитвы, исходившие от других источников. Как резюмировала газета The New York Times: «Эксперты сказали, что это исследование не смогло преодолеть самое, пожалуй, крупное препятствие к изучению эффективности молитв: неизвестный объем молитв, получаемых каждым участником эксперимента от своих друзей, родственников, членов семьи и конгрегаций по всему миру, которые ежедневно молятся за страждущих».

Проведение экспериментов на людях может закончиться арестом или даже международным трибуналом. О такой «перспективе» никогда не следует забывать. Однако в области социальных наук всегда найдется место для статистических управляемых экспериментов с участием людей. Одним из самых знаменитых стало исследование Tennessee’s Project STAR, в ходе которого изучалось влияние уменьшения количества учащихся в группах на степень усвоения ими знаний. В наши дни буквально все страны борются за повышение качества своих систем образования. Если уменьшение количества учащихся в группах способствует более эффективному обучению, то при прочих равных условиях (ceteris paribus) общество должно направлять дополнительные средства на подготовку большего числа преподавателей, которые при этом понадобятся. В то же время дополнительные преподаватели – это дополнительные расходы (и весьма немалые); если учащиеся в небольших группах демонстрируют лучшие результаты по причинам, не зависящим от размера этих групп, то государственные деньги окажутся попросту выброшенными на ветер.

Связь между величиной учебной группы и эффективностью усвоения учащимися материала, как ни странно, изучить не так просто. Учебные заведения, формирующие компактные группы студентов, как правило, имеют больше ресурсов; это означает, что учащиеся и преподаватели в них отличаются от учащихся и преподавателей в учебных заведениях с большими размерами учебных групп. К тому же меньшие учебные группы обычно формируются в силу определенных причин. Например, директор может создать такую группу для отстающих учеников (в этом случае может наблюдаться ложная отрицательная зависимость между небольшим количеством учеников в классе и их успеваемостью). Еще один вариант: опытные преподаватели могут отдать предпочтение небольшим группам; в этом случае преимущество последних будет следствием выбора преподавателей.