Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:
Итак, имеет ли смысл вкладывать один миллион долларов в этот исследовательский проект?
Информация, которой вы располагаете, кажется весьма запутанной. Потенциальный доход выглядит довольно внушительно – в 25 раз больше вложенного капитала, – но и количество возможных ловушек велико. Эту информацию можно представить в виде дерева решений, которое – если вероятности, связанные с каждым исходом, соответствуют действительности, – даст вам вероятностную оценку того, как вам следует поступить. На дереве решений отображается каждый источник неопределенности, а также вероятности, связанные со всеми возможными исходами. Конец дерева указывает все возможные доходы, а также вероятность получения каждого из них. Если каждый такой доход умножить на весовой коэффициент, который равняется вероятности соответствующего дохода, и просуммировать все возможности, то мы получим математическое ожидание данной инвестиционной возможности. Как обычно, схематическое изображение способствует лучшему пониманию.
Эта конкретная
Аналогичный базовый процесс можно использовать для объяснения явления, которое на первый взгляд противоречит здравому смыслу. Иногда нет смысла проводить обследование всего населения с целью выявления какого-либо редкого, но серьезного заболевания, такого, скажем, как СПИД. Допустим, тестирование на какое-то редкое заболевание отличается высокой степенью точности. Предположим, что эта болезнь поражает одного из каждых 100 000 взрослых, а точность ее диагностирования составляет 99,9999 %. Тест никогда не дает ложного отрицательного результата (то есть не пропускает человека, страдающего таким заболеванием); однако примерно в одном из 10 000 тестов, проведенных на здоровом человеке, будет зафиксирован ложный положительный результат (то есть тест укажет на наличие у человека данного заболевания, хотя на самом деле этот человек здоров). Парадоксальная особенность здесь состоит в том, что несмотря на впечатляющую точность теста, большинство людей с положительным результатом тестирования в действительности оказываются не больны. Но такой предварительный диагноз вызовет у них сильнейшей стресс, пока не выяснится, что он ложный; кроме того, это может обусловить напрасное расходование средств на проведение повторных тестов и лечение людей, которые в действительности здоровы.
Если мы подвергнем тестированию все взрослое население Соединенных Штатов, то есть приблизительно 175 миллионов человек, то дерево решений примет следующий вид:
Итак, только 1750 человек страдают этим заболеванием. У всех положительный результат теста. У остальных 174 с лишним миллионов взрослых этой болезни не выявлено. Для 99,9999 % протестированных результат был определен правильно: они здоровы. Ложный положительный результат получили всего 0,0001 % человек. Однако 0,0001 % от 174 миллионов все же достаточно большое число. По сути, это в среднем 17 500 человек.
Попытаемся проанализировать, что это означает. В общей сложности 19 250 человек уведомляются о том, что они страдают данным заболеванием, и лишь 9 % из них в действительности больны! А ведь речь идет о тесте с очень невысокой долей ложных положительных результатов. Не слишком отклоняясь от обсуждаемой темы, я привел этот пример, чтобы дать вам некоторое представление о том, почему методы сдерживания затрат в системе здравоохранения иногда предусматривают проведение обследования главным образом среди групп повышенного риска заболевания, а не среди здорового населения. В случае таких заболеваний, как ВИЧ/СПИД, представители государственной системы здравоохранения зачастую рекомендуют обследовать группы повышенного риска, например гомосексуалистов или наркоманов.
Иногда вероятность сигнализирует нам об опасных ситуациях. В главе 1 рассказывалось о проблеме манипуляций со стандартизованными тестами и об одной из фирм, которая пыталась выявлять такие случаи, Caveon Test Security. Комиссия по ценным бумагам и биржам (Securities and Exchange Commission – SEC), государственное агентство, отвечающее за практическую реализацию федеральных законов, касающихся торговли ценными бумагами, применяет аналогичную методологию для обнаружения трейдеров-инсайдеров. (Инсайдерская торговля ценными бумагами связана с незаконным использованием конфиденциальной информации, такой как, скажем, знание юридической фирмой о предстоящем поглощении для торговли акциями и другими ценными бумагами компаний, участвующих в данном процессе.) SEC использует мощные компьютеры для анализа сотен миллионов операций купли-продажи ценных бумаг с целью выявления подозрительной активности, например крупной покупки акций компании непосредственно перед объявлением о ее поглощении или массовом «сбросе» акций компании буквально перед ее заявлением о резком сокращении прибыли {37} . SEC также расследует деятельность инвестиционных менеджеров с необычайно высокими прибылями на протяжении длительных периодов времени. (Как экономическая теория, так и исторические данные свидетельствуют, что отдельно взятому инвестору чрезвычайно трудно год за годом получать прибыль выше среднего
37
Roger Lowenstein, The War on Insider Trading: Market Beaters Beware, New York Times Magazine, September 22, 2011.
В фильме 2002 года Minority Report Том Круз играет детектива, предотвращающего преступления. Его герой является сотрудником некоего бюро, которое использует определенную технологию для прогнозирования преступлений еще до того, как они будут совершены.
Нет, дорогие читатели, это уже не фантастика. В 2011 году в газете The New York Times вышла статья под заголовком: «Полиция прибывает на место до совершения преступления» {38} . В ней рассказывалось, что специальная компьютерная программа предсказала высокую вероятность совершения краж из автомобилей в этот день на подземной парковке, расположенной в деловом районе города Санта-Круз. Когда туда приехали детективы, они обнаружили двух женщин, слишком уж пристально всматривающихся в окна автомобилей. Одна из них уже неоднократно задерживалась за воровство, а у другой нашли запрещенные наркотики.
38
Erica Goode,Sending the Police before There’s a Crime, New York Times, August 15, 2011.
Система, использовавшаяся в Санта-Круз, была разработана двумя математиками, антропологом и криминалистом. Отдел полиции в Чикаго создал у себя целое подразделение аналитиков-прогнозистов. Частично его формирование объяснялось тем, что банды, терроризировавшие город, действовали по определенным шаблонам. Книга Data Mining and Predictive Analysis: Intelligence Gathering and Crime Analysis, руководство по статистике для правоприменения, начинается со следующего бодрого заявления: «Теперь можно составлять прогноз в отношении уголовных преступлений; например выявлять тенденции развития преступности, прогнозировать “горячие точки”совершения преступлений, уточнять решения, касающиеся выделения ресурсов на те или иные цели, и обеспечивать максимальную защиту граждан наиболее эффективными способами». (Обратите внимание: я ознакомился со всей этой информацией, чтобы кратко изложить ее для вас и сэкономить вам таким образом время.)
«Прогнозная полиция» является частью более широкого движения, которое называется «предиктивным анализом». Уголовные преступления всегда включают в себя элемент неопределенности: вы никогда не сможете сказать заранее, кто разобьет ваш автомобиль или не выполнит обязательств по вашей ипотеке. Вероятность помогает нам ориентироваться в таких рисках. А информация позволяет уточнить понимание соответствующих вероятностей. Компании, сталкивающиеся в своей деятельности с неопределенностью, всегда пытаются получить количественную оценку рисков. Кредиторы интересуются такими вещами, как реальный доход получателя кредита и его кредитный рейтинг. Однако эти несовершенные кредитные инструменты все больше напоминают нам некий эквивалент каменных орудий пещерного человека. Сочетание огромных объемов цифровых данных и дешевой вычислительной мощности позволяет нам гораздо лучше понимать поведение человека. Представители страховых компаний правильно описывают свой бизнес как «передача риска» – и поэтому им следует как можно точнее оценивать риски, переносимые на них. Особенности бизнеса, которым занимаются такие компании, как Allstate Corporation, заставляют их обращать самое пристальное внимание на вещи, которые стороннему наблюдателю могли бы показаться ничего не значащими случайностями: {39}
39
Источниками данных о страховании рисков являются: Teen Drivers, Insurance Information Institute, March 2012; Texting Laws and Collision Claim Frequencies, Insurance Institute for Highway Safety, September 2010; Hot Wheels, National Insurance Crime Bureau, August 2, 2011.
• в дорожно-транспортные происшествия со смертельным исходом чаще всего попадают водители в возрасте от двадцати до двадцати четырех лет;
• в штате Иллинойс чаще всего угоняют автомобили марки Honda Civic (а в штате Алабама – полноразмерные пикапы Chevrolet) [28] ;
• хотя законом запрещена отправка SMS во время вождения, поскольку это часто приводит к ДТП, водителей это не останавливает. Более того, подобные законы могут даже усугублять ситуацию, заставляя водителей прятать мобильные телефоны и в результате отвлекаться от дороги во время набора сообщения.
28
Так как я советовал вам с осторожностью относиться к описательным статистикам, я чувствую себя обязанным отметить, что автомобиль, который угоняют чаще всего, вовсе не обязательно является автомобилем, который угоняют вероятнее всего. Большое число автомобилей марки Honda Civic угоняют именно потому, что это самая распространенная марка, между тем как вероятность угона какого-либо отдельно взятого автомобиля марки Honda Civic (а именно это интересует страховые компании, страхующие от угона автомобилей) может оказаться весьма низкой. Напротив, даже если угоняют 99 % всех автомобилей Ferrari, автомобиль этой марки не возглавил бы список «наиболее часто угоняемых», поскольку таких автомобилей сравнительно мало и, следовательно, их угоняют довольно редко.