Том13. Абсолютная точность и другие иллюзии. Секреты статистики
Шрифт:
Можно заметить, что некоторые значения, например 150 л. с., встречаются чаще других. Также можно определить, какие автомобили дешевле аналогов с той же мощностью двигателя. Видна четкая взаимосвязь между переменными, но это не означает, что между ними существует причинно-следственная связь. Например, если мы построим подобный график, демонстрирующий связь ущерба, причиненного пожаром, с числом пожарных, задействованных при его тушении, станет очевидна четкая взаимосвязь: чем больше ущерб, тем больше пожарных, но это не означает, что ущерб причинили пожарные. Другой пример: школьники с большим размером ноги делают меньше орфографических ошибок, чем школьники с меньшим размером. В это трудно поверить, не так ли? Тем не менее чем старше дети, тем больше у них размер ноги и тем меньше они делают ошибок. В обоих случаях существует третья переменная, которая имеет взаимосвязь с двумя рассматриваемыми переменными. В первом случае это масштаб пожара, во втором — возраст школьника.
Однако в некоторых случаях причинно-следственная связь не столь очевидна. 28 декабря 1994
Связь смертности от сердечно-сосудистых заболеваний с уровнем употребления вина в 21 стран.
(источник: The New York Times, 28 декабря 1994 г.)
Можно заметить, что в странах, где пьют больше вина, уровень смертности от сердечно-сосудистых заболеваний ниже. Но, как мы уже говорили, это не означает, что между этими двумя переменными обязательно существует причинно-следственная связь. Из этой диаграммы не следует, что если мы будем пить больше вина (разумеется, в разумных пределах), то риск инфаркта снизится. Страны, в которых употребляют больше всего вина, одновременно с этим являются его крупнейшими производителями. Это означает соответствующий климат, режим питания, обычаи — какой-то из этих факторов и может быть причиной низкого уровня болезней сердца. Впрочем, причиной действительно может быть умеренное потребление вина, но данные, которыми мы располагаем, этого не доказывают.
* * *
ПРОСТЫЕ ДИАГРАММЫ ДЛЯ РЕШЕНИЯ СЛОЖНЫХ ЮРИДИЧЕСКИХ ВОПРОСОВ
На президентских выборах в США в 2000 году, когда основными кандидатами были демократ Альберт Гор и республиканец Джордж Буш, их результаты оказались практически равными, что вызвало бурное обсуждение. В штате Флорида, где проживало около 6 миллионов избирателей, Буш одержал победу с преимуществом в 537 голосов. Кандидат, одержавший победу в этом штате, набирал необходимое для победы число голосов и становился президентом. Были поданы протесты, и окончательный вердикт должен был вынести суд. Не вдаваясь в юридические тонкости, приведем диаграмму, на которой отображены голоса, полученные Гором, в сравнении с голосами в пользу другого кандидата, Патрика Бьюкенена, в каждом из 67 округов штата Флорида.
Сравнение голосов в пользу Патрика Джозефа Бьюкенена и в пользу Альберта Гора в каждом из 67 округов штата Флорида.
(источник: Д. Мур. Learning from Data. «Statistics: A Guide to the Unknown», 4-е издание)
Первое, что бросается в глаза, — число голосов в Палм-Бич не подчиняется общей закономерности. Вместо закономерных 1500 голосов в его пользу было отдано 3 411 голосов. При взгляде на диаграмму становится понятно, что округ Палм-Бич должен обладать какой-то особенностью. Однако не было никакой причины, по которой Бьюкенен мог бы получить в этом округе значительно больше голосов, чем в остальных. Он сам и его сторонники заявляли, что 1000 голосов будет для них оптимистичным прогнозом. Вскоре стало ясно, что единственной особенностью была форма бюллетеня для голосования, использовавшегося в этом округе. Чтобы проголосовать за выбранного кандидата, нужно было проколоть отверстие в бюллетене. Из-за неудачного дизайна бюллетеней многие избиратели (очевидно, более 2000, достаточно взглянуть на график) проголосовали в пользу Бьюкенена, хотя в действительности хотели отдать свой голос Гору.
* * *
Для конкретного множества данных среднее значение и среднеквадратическое отклонение — это конкретные значения, не допускающие разночтений. Однако в случае с графическим представлением данных это не так. Вид гистограммы для конкретного множества данных будет зависеть от выбранного масштаба (вы уже увидели это на примере печи № 3 в нашем примере с пекарней), а также от ширины интервалов и граничных значений интервалов. К примеру, при неизменной ширине интервалов при границах 190,192,194, … гистограмма будет выглядеть иначе, чем для граничных значений 191, 193, 193, …
Например, изменение значений экономического показателя за последние шесть месяцев можно представить графиком, изображенным слева, на котором показан впечатляющий рост, или графиком, изображенным справа, из которого следует, что значение показателя практически не изменилось. Различие между этими графиками заключается в выборе масштаба вертикальной оси.
Одни и те же изменения в разных масштабах.
Изменение масштаба горизонтальной оси также может преподнести немало сюрпризов. На следующем рисунке представлен график изменения объемов продаж за последние четыре года, построенный в мае 2010 года, когда были доступны данные лишь по апрель 2010 года. Это указано в подписи к графику, но создается впечатление, что объем продаж резко упал. В действительности же, учитывая, что на период до апреля включительно приходится треть годового объема продаж, прогнозное значение продаж на 2010 год превышает 150.
Четыре значения несравнимы между собой: за 2010 год доступны данные только до апреля включительно.
* * *
КАТАСТРОФА «ЧЕЛЛЕНДЖЕРА»
Все мы хотя бы раз видели фотографию космического челнока «Челленджер» на стартовой площадке: шаттл, похожий на самолет, вертикально закреплен на огромном топливном баке, полном горючего, по бокам которого находятся ракетные ускорители, выводящие челнок на орбиту. Эти ускорители, как и другие элементы челнока, невозможно перевозить в собранном виде, поэтому они изготавливаются и доставляются по частям, а сборка происходит на космодроме. Чтобы обеспечить отсутствие утечек в местах стыков и предупредить катастрофу, используются круглые уплотнительные кольца из каучука толщиной 6 мм и диаметром 12 м.
В ночь с 27 на 28 января 1986 года группа техников и руководители завода, производившего ракетные ускорители, провели телеконференцию с коллегами из NASA, чтобы обсудить возможность переноса запуска челнока на следующий день. Их беспокоило, что, по прогнозу, температура воздуха в день запуска должна была быть существенно ниже обычной — от 26 до 29 °F (от -2 до -3 °C). Они боялись, что при таких температурах уплотнительные кольца не обеспечат полную герметичность. Имелись данные с прошлых запусков, так как обломки двигателей после каждого запуска собирались и тщательно анализировались. В одном случае были зафиксированы дефекты уплотнительных колец, но серьезных происшествий не было отмечено ни разу. После анализа данных члены рабочей группы сделали вывод, что доказательства того, что низкие температуры могут негативно отразиться на уплотнительных кольцах, отсутствуют. Было принято решение не переносить запуск.
Утром следующего дня спустя 59 секунд после запуска сквозь одно из колец, которое было не полностью герметичным, начало прорываться пламя. Огонь быстро достиг топливного бака, что привело к взрыву шаттла и гибели семерых астронавтов, находившихся на его борту. Катастрофа шокировала весь мир и привела к радикальным изменениям в космической программе NASA.
Президент Рональд Рейган создал комиссию по расследованию инцидента, куда вошли видные представители научного сообщества. Комиссия определила, что анализ имеющихся данных был недостаточным. Одной из ошибок стало то, что не были приняты во внимание данные о полетах, в которых кольца не были повреждены (рис. 1). Подробный анализ параметров уплотнительных колец во время всех запусков позволил бы увидеть взаимосвязь между отмеченными дефектами и температурой воздуха. На рис. 2 четко видно, что данные, соответствующие температуре в момент планируемого запуска «Челленджера», отсутствуют, следовательно, нельзя гарантировать отсутствие неполадок при этой температуре. Кроме того, можно увидеть, что при понижении температуры число неполадок возрастает. На рис. 3 число колец, на которых были обнаружены дефекты (вне зависимости от их серьезности), заменено оценкой, определенной комиссией по расследованию катастрофы. На этом рисунке связь видна еще более четко. Это наглядный пример того, как с помощью простого графического анализа данных можно получить много информации об анализируемой проблеме.
Рис. 1. Каждая точка обозначает запуск, во время которого были зафиксированы повреждения уплотнительных колец. На вертикальной оси отмечено число происшествий, на горизонтальной — температура во время запуска (в °F).
Рис. 2. На удлиненной горизонтальной оси отмечена прогнозная температура в момент запуска «Челленджера». На графике также содержатся точки, соответствующие запускам, во время которых не было отмечено неполадок уплотнительных колец.
Рис. 3. Для каждого запуска была произведена оценка повреждений уплотнительных колец. Она отложена вдоль вертикальной оси.
(источник: Эдвард Тафти. Visual Explanations).
* * *
Графическое представление данных также может выглядеть по-разному в зависимости от выбранной переменной. Например, если объемы продаж вашей компании падают, что показано на графике слева внизу, можно построить график объема продаж с нарастающим итогом (справа), который, очевидно, будет расти.