Ложь, наглая ложь и статистика. Приемы, которые помогут видеть правду за цифрами
Шрифт:
На студии я пел статистике дифирамбы, но по пути в студию то, что я наблюдал каждый день, говорило мне, что в данном случае статистика врет.
Такие противоречия между тем, что вы видите своими собственными глазами, и тем, что утверждает статистика, – вещь нешуточная. В предыдущей главе мы узнали, как важно не дать обмануть себя своим же эмоциям. Поскольку я называю себя детективом данных, следовало бы ожидать, что тот же принцип я применяю и в своей жизни. Да и вообще, кому вы скорее поверите: достойной доверия таблице или обману собственных глаз?
На самом деле все сложнее. Отодвигая в сторону эмоции, не следует сбрасывать со счетов свой личный опыт – стоит, по крайней мере,
Так что же делать, когда цифры твердят одно, а жизнь – совершенно другое? Про это мы и поговорим в этой главе.
Для начала попробуем задаться вопросом, откуда взялись наши данные. В случае с моими поездками на работу данные были опубликованы «Лондонским транспортом», организацией, которая следит за дорогами и общественным транспортом Лондона. Но как же эти славные люди могут узнать, сколько людей сели в автобус или поезд? Отличный вопрос, и ответ таков: никак. Однако они могут прикинуть более или менее верное число. В прошлом такие подсчеты основывались на бумажных опросниках, с которыми исследователи стояли на остановках и на станциях или которые раздавались пассажирам. Метод явно не из легких, но не думаю, что в него вкралось столько ошибок, чтобы объяснить этот гигантский разрыв между моим опытом и официальными данными о нагрузке.
В любом случае теперь, в эпоху беcконтактных платежей, посчитать пассажиров куда проще. Практически все пассажиры автобусов платят за проезд, прикладывая к валидатору банковскую карту с функцией бесконтактной оплаты, транспортную карту «Oyster» или смартфон. Исследователи в «Лондонском транспорте» могут отслеживать, где и когда эти устройства используются. Им, правда, нужно еще догадаться, на какой остановке вы выходите, но и это зачастую несложно. Они могут, например, посмотреть, где вы сели на автобус по пути домой. Или же они видят, что вы использовали карту на другом виде транспорта. Каждый раз, когда я прикладывал карточку к валидатору на станции подземки «Bethal Green», – через минуту после того, как мой автобус оказался в этом районе, – «Лондонский транспорт» может быть уверен, что я проехал до «Bethal Green», но никак не дальше.
В подземке люди прикладывают карточку и на входе, и на выходе, но «Лондонский транспорт» не знает, какой именно маршрут они выбирают, – а зачастую существует несколько возможных вариантов пути. Таким образом, «Лондонский транспорт» не знает, сколько людей в конкретном поезде. Но, опять же, они могут постараться это число угадать, периодически проводя в транспорте опросы, чтобы проверить, насколько они близки к истине.
В скором времени статистика станет еще более надежной. С 8 июля 2019 года «Лондонский транспорт» использует для определения нагрузки в подземке сети wi-fi. Чем больше людей пытается подключиться к сети, тем, значит, выше загруженность на той или иной станции. Ожидается, что эта система позволит «Лондонскому транспорту» отслеживать чересчур большие скопления народа и другие проблемы в режиме реального времени. (Я пообщался с исследователями данных «Лондонского транспорт» на следующий день после запуска системы. Они были от нее просто в восторге5.)
Получается, что статистические данные «Лондонского транспорта» как минимум правдоподобны. Мы не можем просто отмахнуться от них как от выдумки.
Следующий шаг – подумать, почему наш личный опыт так сильно отличается
Но этим объяснением я не ограничился. Есть вероятность того, что большая часть поездов действительно не переполнена, но большинство людей ездят на переполненных поездах. Для наглядности представим себе маловероятную ситуацию: есть линия подземки, на которой в день ходит 10 поездов. В поезд, идущий в час-пик, набьется тысяча людей. В остальные – ни одного. И какова же средняя загрузка этих поездов? Сто человек – не так уж сильно отличается от статистики «Лондонского транспорта». Но представим себе типичного пассажира – что видит он? Он видит, что все пассажиры этой линии собрались в его переполненном поезде.
На деле до таких крайностей не доходит. Абсолютно пустые поезда встречаются редко, но бывает, что в поезде очень мало пассажиров, особенно если они едут не в ту сторону, что большинство. Когда такое случается, свидетелей этой ситуации можно по пальцам перечесть. Статистика говорит правду – но не всю правду.
Разумеется, посчитать пассажиров можно и по-другому. Можно, например, измерять не загруженность среднего поезда, а загруженность поезда для среднего пассажира. Из сотни пассажиров сколько будет ехать в переполненном поезде? Такой метод лучше отражает то, что испытывают пассажиры, и в настоящее время «Лондонский транспорт» занят тем, что переводит систему сбора и обработки данных на новые рельсы, чтобы отражать ситуацию с точки зрения пассажиров, а не поездов.
Но все равно – не существует какого-то объективного способа оценить загруженность транспортной системы. Мне как пассажиру кажется, что мой автобус всегда забит, но статистика показывает, что многие автобусы ездят практически без пассажиров, – и это правда. А все потому, что автобусы появляются в оживленных частях города не по мановению волшебной палочки. Когда они доезжают до конечной, им нужно развернуться и поехать назад. «Лондонский транспорт» так переживает о средней загруженности автобусов, потому что автобусы стоят денег, занимают место на дороге и испускают выхлопные газы. Получается, что средняя загруженность для них – число очень даже полезное.
Короче говоря, основываясь на своем опыте, я узнал кое-какие важные истины о лондонском транспорте. Но статистика сообщила мне нечто другое, столь же важное и истинное – и недоступное мне никакими другими способами. Иногда личный опыт говорит одно, статистика – совершенно иное, и оба правы.
Разумеется, так происходит не всегда. Вспомните историю про то, как частое употребление табака в 16 раз увеличивает риск рака легких. Многие люди относятся к этому открытию со скепсисом именно из-за своего личного опыта. Может быть, вашу 90-летнюю бабушку никто никогда не видел без сигареты – и ничего, как огурчик. А единственная известная вам жертва рака легких – дядя соседа, который ни одной сигареты не выкурил за всю свою жизнь.
Может показаться, что здесь работает тот же принцип, что и в несоответствии моих поездок на работу статистике «Лондонского транспорта». Но если приглядеться получше, мы поймем, что в этом случае статистика надежнее личного опыта. Хотя риск рака легких у курильщиков выше аж в 16 раз, все равно это болезнь достаточно редкая, чтобы мы могли верить своему непосредственному восприятию. В мире множество закономерностей, которые слишком малозаметны или редки, чтобы разглядеть их невооруженным взглядом. А через призму статистики можно увидеть и эти закономерности, и многие другие.