Удовольствие от X.Увлекательная экскурсия в мир математики от одного из лучших преподавателей в мир
Шрифт:
Каким образом отдельные случайности превращаются в общие закономерности? Но именно так действует случайность. В среднем столбике скопилось больше всего шариков потому, что, прежде чем скатиться вниз, многие из них совершат примерно одинаковое количество прыжков вправо и влево и в результате окажутся где-то посередине. Несколько одиноких шариков, расположившихся по краям, образуют хвосты распределения — это те шарики, которые при столкновении со штырьками отскакивали всегда в одном направлении. Такие отскоки маловероятны, поэтому по краям так мало шариков.
Подобно тому как местоположение каждого шарика определяется суммой множества случайных событий, многие явления в этом мире являются следствием множества мелких обстоятельств и тоже подчиняются колоколообразной кривой. По этому принципу работают страховые компании. Они с высокой точностью могут назвать количество своих клиентов, которые умирают каждый год. Однако не знают, кому именно не повезет на этот раз.
Или возьмем, к
119
Данные о распределении роста населения США см. в статье M. A. McDowell et al., Anthropometric reference data for children and adults: United States, 2003–2006, National Health Statistics Reports, № 10 (October 22, 2008), доступна на http://www.cdc.gov/nchs/data/nhsr/nhsr010.pdf.
В одном блоге под названием «Ложные данные, которые люди сообщают о себе в интернете» статистическая служба сайта знакомств OkCupid [120] недавно опубликовала график роста своих клиентов или, скорее, указанных ими значений. Обнаружилось, что показатели роста представителей обоих полов, как и ожидалось, образуют колоколообразную кривую. Однако удивительно то, что оба распределения были примерно на два дюйма смещены вправо относительно ожидаемых значений.
<120
OkCupid — самый большой бесплатный сайт знакомств в США, который летом 2011 года насчитывал семь миллионов активных пользователей. Специалисты сайта в области статистики проводят собственный анализ на основе анонимных и обобщенных данных его клиентов, а затем публикуют результаты исследований в своем блоге OkTrends . Распределения роста см. C. Rudder, The big lies people tell in online dating, наЯ благодарю Кристиана Раддера за любезно предоставленную возможность использовать графики, приведенные в его блоге.
Таким образом, либо рост клиентов, опрошенных компанией OkCupid, превышает средний, либо при описании себя в интернете они прибавляют к своему росту еще пару дюймов.
Идеализированной версией подобных колоколообразных кривых является то, что математики называют нормальным распределением. Это одно из важнейших понятий в статистике, имеющее теоретическое обоснование. Можно доказать, что нормальное распределение возникает при сложении большого количества мелких случайных факторов, причем каждый из них действует независимо от других. И многие события происходят именно таким образом.
Но не все. И это второй пункт, на который я хотел бы обратить внимание. Нормальное распределение не такое уж вездесущее, как кажется. На протяжении сотни лет, и особенно в последние несколько десятилетий, ученые и специалисты в области статистики отмечают существование множества явлений, отклоняющихся от этой кривой и следующих собственному графику. Любопытно, что подобные типы распределений практически не упоминаются в учебниках по элементарной статистике, а если и встречаются, то обычно рассматриваются как некие патологии. Это странно. Я попытаюсь объяснить, что многие явления современной жизни приобретают больший смысл при условии понимания этих «патологических» распределений. Это новая нормальность.
Возьмем, к примеру, распределение размеров городов в США. Вместо того чтобы скапливаться вокруг некоей средней величины колоколообразной кривой, подавляющее большинство городов имеют небольшой размер и, следовательно, скапливаются в левой части графика.
И чем больше население города, тем реже такие города встречаются. Иначе говоря, в совокупности распределение будет представлять собой скорее кривую в форме буквы L, чем колоколообразную кривую.
И в этом нет ничего удивительного. Все знают, что мегаполисов гораздо меньше, чем маленьких городов. Хотя это не так очевидно, размеры городов подчиняются простому красивому распределению — если посмотреть на них в логарифмическом масштабе.
Будем считать, что различие между двумя городами одно и то же, если их население отличается в одно и то
Теперь данные располагаются на кривой, представляющей собой почти идеальную прямую линию. Исходя из свойств логарифмов, нетрудно вывести, что исходная L-образная кривая представляет собой степенную зависимость, которая описывается функцией вида
где x — население города, у — количество городов, имеющих такой размер, с — константа, а показатель степени a (показатель степенной зависимости) определяет отрицательный наклон прямой линии.
Степенные распределения [121] имеют некоторые нелогичные, с точки зрения традиционной статистики, свойства. Например, в отличие от нормального распределения, их моды, медианы и средние значения не совпадают из-за скошенной асимметричной формы L-образных кривых. Президент Буш извлек из этого немалую пользу, заявив в 2003 году, что сокращение налогов позволило каждой семье сэкономить в среднем 1586 долларов [122] . Хотя математически это верно, здесь он к своей выгоде взял за основу среднее значение вычета, под которым скрывались огромные вычеты в сотни тысяч долларов, полученные 0,1 % богатейшего населения страны. Известно, что «хвост» в правой части распределения дохода следует степенной зависимости, и в подобной ситуации использование средней величины вводит в заблуждение, поскольку она далека от своего реального значения. В действительности большинству семей вернули менее 650 долларов. В данном распределении медиана значительно меньше, чем среднее значение.
121
Введение в эту тему великолепно изложено в статье Марка Ньюмана M. Newman, Power laws, Pareto distributions and Zipf’s law, Contemporary Physics, Vol. 46, № 5 (2005), pp. 323–351. В ней приводятся графики частотности слов в романе Германа Мелвилла «Моби Дик», магнитуды землетрясений в Калифорнии в период с 1910 по 1992 год, размеры собственного имущества 400 богатейших людей США в 2003 году, а также множество других распределений «с тяжелым хвостом», упомянутых в этой главе. Более раннее, но заслуживающее внимания исследование степенной зависимости см. M. Schroder, Fractals, Chaos, Power Laws (W. H. Freeman, 1991).
122
Пример взят из работы C. Seife, Proofiness (Viking, 2010). Приведенные в тексте цифры основаны на анализе, проведенном группой FactCheck.org (независимый проект Центра государственной политики Анненберг Университета Пенсильвании), доступен наЭтот анализ опубликован независимым Центром налоговой политики W. G. Gale, P. Orszag and I. Shapiro, Distributional effects of the 2001 and 2003 tax cuts and their financing, http://www.taxpolicycenter.org/publications/url.cfm?ID=411018.
Этот пример демонстрирует важнейшее свойство распределений степенной зависимости: они имеют «тяжелые хвосты» по сравнению по крайней мере с маленькими «жидкими хвостиками» нормального распределения. Подобные большие хвосты хотя и редкость, но встречаются чаще в распределениях данных, чем обычные колоколообразные кривые.
В «черный понедельник», 19 октября 1987 года, промышленный индекс Доу-Джонса упал на 22 %. По сравнению с обычным уровнем нестабильности на фондовом рынке это падение составило более двадцати стандартных отклонений. Согласно традиционной статистике (в которой используется нормальное распределение), подобное событие практически невозможно: его вероятность составляет менее чем один случай на 100 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 (10 в 50 степени). Однако это произошло — поскольку колебания цен на фондовом рынке [123] не соответствовали нормальному распределению. Для их описания лучше подходят распределения с «тяжелым хвостом».
123
См. B. Mandelbrot and R. L. Hudson, The (Mis)Behavior of Markets (Basic Books, 2004) и N. N. Taleb, The Black Swan (Random House, 2007).