Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:
• Что является причиной роста заболеваемости аутизмом?
Статистика способна помочь нам (или, как мы рассчитываем, поможет в ближайшем будущем) получить ответы на эти вопросы.
Наш мир все быстрее и быстрее генерирует все большие и большие объемы данных. Тем не менее, как справедливо отметила The New York Times, «данные – всего лишь исходный материал знаний» {3} , [6] . Статистика – самый мощный из имеющихся в нашем распоряжении инструментов для практического использования информации, например для оценивания эффективности действий бейсболистов или более справедливой оплаты труда преподавателей. Ниже приведен краткий обзор того, как статистика способна
3
Steve Lohr, For Today’s Graduate, Just One Word: Statistics, New York Times, August 6, 2009.
6
Исторически так сложилось, что слово «данные» (data) используется во множественном числе (например, «эти данные являются весьма обнадеживающими»). Это слово можно употреблять и в единственном числе: «данное» (datum); в этом случае речь идет о каком-то отдельно взятом элементе данных (например, ответ одного человека на какой-то один вопрос анкеты, используемой при опросе общественного мнения). Употребление слова «данные» во множественном числе сигнализирует каждому, кто занимается серьезными исследованиями, о том, что вы знаете толк в статистике. С учетом сказанного многие специалисты по грамматике, а также многие издания, такие как The New York Times, в настоящее время согласны с тем, что слово «данные» может означать как единственное, так и множественное число, как свидетельствует приведенная мной цитата из The New York Times.
Описание и сравнение
Счет партии в боулинг является описательной (дескриптивной) статистикой. То же можно сказать и о каком-либо среднем показателе (например, в спорте). Большинство американских спортивных болельщиков в возрасте старше пяти лет неплохо разбираются в описательной статистике. Мы используем численные показатели в спорте и других сферах жизни для подытоживания информации. Насколько Микки Мэнтл был хорош как бейсболист? Его итоговый рейтинг как хиттера составил 0,298. Для бейсбольных болельщиков это весьма красноречивое число. Итоговый рейтинг 0,298 – выдающийся показатель, если принять во внимание, что в нем учитываются результаты Микки Мэнтла за восемнадцать лет карьеры профессионального бейсболиста {4} . (Хотя, согласитесь, если итог жизни человека можно выразить одним-единственным числом, это несколько разочаровывает и настраивает на мысли о бренности человеческого бытия.) Разумеется, фанаты бейсбола должны помнить о существовании другой описательной статистики, которая, возможно, отражает ценность того или иного бейсболиста гораздо лучше, чем пресловутый средний показатель.
4
Baseball-Reference.com, http://www.baseball-reference.com/players/
Академическая успеваемость учащихся школ и колледжей в США оценивается с помощью среднего балла. В стране используется шкала с буквенными обозначениями, где каждой букве соответствует определенный балл: как правило, A = 4 балла, B = 3 балла, C = 2 балла и т. д. По окончании учебного заведения, когда абитуриенты поступают в колледжи, а выпускники колледжей подыскивают себе работу, средний балл становится удобным инструментом для оценивания их академического потенциала. Тот, у кого средний балл 3,7, явно сильнее выпускника со средним баллом 2,5. Таким образом, средний балл является весьма полезной описательной статистикой. Его легко вычислить, понять и сравнивать с баллами других учащихся.
Тем не менее данный показатель не идеален. В нем не учитывается сложность учебных программ, которые проходят разные ученики. Как можно сравнивать знания учащегося со средним баллом 3,4, обучавшегося по относительно легкой программе, и его сверстника со средним баллом 2,5, изучавшего математику, физику, химию и другие сложные предметы? В свое время я посещал школу, которая пыталась решить эту проблему, присваивая таким дисциплинам дополнительные весовые коэффициенты, в результате чего оценка A по предмету повышенной трудности соответствовала пяти баллам, а по обычному предмету приравнивалась к четырем. Однако у данного подхода были существенные минусы. Моя мать довольно быстро уяснила, как эта «поправка» влияет на средний балл. Дело в том, что для таких учеников, как я (изучавших много сложных предметов), максимальная оценка A по любому из обычных предметов (например, по физкультуре или основам безопасности жизнедеятельности) не могла превышать 4 баллов, что снижало средний балл, как бы хорошо мы ни учились. В результате родители запретили мне посещать в школе курсы вождения автомобиля, поскольку даже самые высокие оценки по этому курсу уменьшали мои шансы на поступление в какой-либо престижный колледж и последующие занятия писательским трудом. Поэтому они отправили меня в частную (платную) школу вождения, которую мне пришлось посещать летом.
Глупость? Конечно! Но одной из тем, которые я затрону в этой книге, будет опасность чрезмерного увлечения любой из описательных статистик, поскольку это может привести к ошибочным умозаключениям и подтолкнуть к нежелательным действиям. В первоначальном варианте книги я использовал выражение «упрощенная описательная статистика», однако в конечном счете выбросил слово «упрощенная», поскольку оно показалось мне заведомо избыточным. Описательная статистика для того и существует, чтобы упрощать, что всегда подразумевает некоторую потерю нюансов и деталей. Каждый, кто работает с числами, должен воспринимать это как данность.
Умозаключения
Сколько бездомных живет на улицах Чикаго? Как часто женатые пары занимаются сексом? На первый взгляд у этих вопросов нет ничего общего. На самом же деле на каждый из них можно ответить (правда, не с абсолютной точностью) с помощью базовых статистических инструментов. Одна из ключевых функций статистики – использование имеющихся данных для выдвижения аргументированных предположений, касающихся вопросов, исчерпывающий ответ на которые невозможно дать из-за отсутствия полной информации. Короче говоря, мы можем использовать данные из «известного мира» для построения обоснованных гипотез относительно «неизвестного мира».
Начнем с вопроса о бездомных. Точно подсчитать их количество в крупном мегаполисе и дорого, и затруднительно. Тем не менее располагать численной оценкой этой группы населения необходимо с целью предоставления социальных услуг, обоснования права на получение части доходов штата и федеральных доходов и соответствующего представительства в Конгрессе. Одним из важных статистических методов является выборочное исследование – процесс сбора данных по какой-то небольшой области, например нескольких районов, где проводилась перепись населения, чтобы на их основе сделать умозаключение о количестве бездомных в городе в целом. Такой подход требует значительно меньших ресурсов, чем попытка сосчитать всех бездомных; к тому же при правильном проведении выборочного исследования можно получить очень близкий к точному результат.
Опрос общественного мнения – еще одна форма статистической выборки. Скажем, исследовательская организация опрашивает членов среднестатистических семей, чтобы выяснить их точку зрения на ту или иную проблему или их мнение о том или ином политическом деятеле. Сделать это, естественно, гораздо проще, дешевле и быстрее, чем обойти все домохозяйства в соответствующем штате или стране в целом. По расчетам Американского института общественного мнения (Институт Гэллапа), методологически правильный опрос 1000 семей дает практически такие же результаты, как и опрос всех семей в Соединенных Штатах.
Именно таким способом нам удалось выяснить, как часто, с кем и как американцы занимаются сексом. В середине 1990-х годов Национальный центр изучения общественного мнения при Чикагском университете провел масштабное исследование сексуального поведения населения страны. Результаты основывались на детальных опросах крупной репрезентативной выборки взрослых американцев. Если вы продолжите чтение этой книги, то в главе 10 узнаете подробности. В каких еще книгах, посвященных статистике, вы могли бы почерпнуть подобные сведения?
Оценивание риска и событий, имеющих вероятностный характер
Казино никогда не бывают внакладе в долгосрочной перспективе. Это не означает, что они зарабатывают деньги в любой момент, но в конечном итоге остаются прибыльными, как бы ни складывалась каждая отдельно взятая игра. Весь игорный бизнес построен на азартных играх, поэтому исход каждой из них непредсказуем. В то же время базовые вероятности наступления соответствующих событий – выпадения двадцати одного очка в блек-джек или зеро при игре в рулетку – известны. И когда эти базовые вероятности выступают в пользу казино (а это происходит всегда), можно не сомневаться, что по мере увеличения количества ставок вероятность того, что истинным победителем окажется игорное заведение, повышается, несмотря на мелкие «досадные недоразумения», случающиеся по ходу дела.