(Не)совершенная случайность. Как случай управляет нашей жизнью
Шрифт:
Ключ к пониманию измерения — постижение природы разброса данных, обусловленного случайной ошибкой. Предположим, мы попросили пятнадцать дегустаторов оценить некоторое вино, или же предложили оценить его несколько раз в разные дни одному и тому же дегустатору, или прибегли к обеим процедурам. Мы можем подвести итоги оценивания, используя усреднение полученных оценок. Однако важную информацию содержит не только среднее значение: если все пятнадцать дегустаторов выставляют оценку 90, это одно, а если они выставляют оценки 80, 81, 82, 87, 89, 89, 90, 90, 90, 91, 94, 97, 99 и 100 — это совсем другое. Среднее значение обоих наборов данных одно и то же, но они различаются разбросом данных относительно этого среднего. А поскольку распределение данных — важный
Стандартное отклонение показывает, насколько данные по выборке близки к среднему — или, в практическом смысле, какова погрешность измерения. Если оно невысоко, все данные группируются вокруг среднего. Например, для случая, когда все дегустаторы поставили вину оценку 90, стандартное отклонение равно 0, указывая на то, что все измерения идентичны среднему значению. В случае же высокого стандартного отклонения данные разбросаны относительно среднего. Например, когда вино оценивается дегустаторами в диапазоне от 80 до 100, выборочное стандартное отклонение равно 6. Это означает, что на практике большинство оценок попадет в диапазон от -6 до +6 относительно среднего. В рассмотренном случае о вине можно с высокой степенью уверенности сказать, что его истинная оценка, скорее всего, относится к диапазону от 84 до 96.
Пытаясь понять значение своих измерений, ученые XVIII–XIX вв. сталкивались с теми же проблемами, что и скептически настроенные ценители хороших вин. Ибо если группа исследователей осуществляет ряд наблюдений и измерений, результаты почти всегда получаются разными. Один астроном мог столкнуться с неблагоприятными погодными условиями, другой — покачнуться из-за порыва ветра, третий, возможно, только что вернулся от Уильяма Джеймса, с которым вместе дегустировал мадеру. В 1838 г. математик и астроном Ф.В. Бессель выделил одиннадцать классов случайных ошибок, которые могут возникнуть в ходе любого наблюдения с использованием телескопа. Даже если один и тот же астроном осуществляет ряд повторных измерений, результаты могут различаться из-за таких факторов, как неустойчивая острота зрения и влияние температуры воздуха на аппаратуру. Поэтому астрономам пришлось разбираться, как на основе ряда несовпадающих измерений установить истинное положение небесного тела. Но из того, что ценители вин и ученые сталкиваются с одной и той же проблемой, совсем не обязательно следует, что для них годится одно и то же решение. Можно ли выделить универсальные характеристики случайной ошибки, или же ее природа зависит от контекста?
Одним из первых предположение о том, что для разных типов измерений характерны одни и те же особенности, выдвинул Даниил Бернулли, племянник Якоба Бернулли. В 1777 г. он уподобил случайную ошибку в астрономическом наблюдении отклонениям в траектории выпущенной из лука стрелы. В обоих случаях, рассуждал он, цель — истинное значение измеряемой переменной или же «яблочко» мишени — располагается где-то посреди, а наблюдаемые результаты группируются вокруг нее, причем большинство должны лежать в окрестностях цели, и лишь немногие выпадают за их пределы. Закон, который Бернулли предложил для описания этого распределения, оказался неверен, однако важно само понимание того, что распределение ошибок лучника может быть сходно с распределением ошибок в наблюдениях астрономов.
Идея о том, что распределение ошибок подчиняется некому универсальному закону, который называют законом случайного распределения ошибок, является основополагающей для теории измерения. И вот что примечательно: допущение состоит в том, что при условии удовлетворения определенных условий довольно общего характера установить истинное значение некоторой переменной на основе ряда измерений можно с использованием одного и того же математического аппарата. Если в дело вступает универсальный закон, то задача установления истинного положения небесного тела на основе ряда наблюдений астрономов приравнивается к задаче нахождения центра мишени на основе дырочек от стрел или определения «качества» вина на основе ряда экспертных оценок. Именно поэтому математическая статистика — последовательная и согласованная область, а не просто набор трюков: неважно, осуществляете ли вы ряд измерений для того, чтобы установить положение Юпитера в 4 часа утра на Рождество или средний вес булок с изюмом, выходящих с конвейера, распределение ошибок будет одним и тем же.
Однако отсюда не следует, что случайная ошибка — единственный вид ошибок, которые могут повлиять на измерение. Если половина дегустаторов предпочитает красное вино, а другая половина — белое, однако во всех остальных отношениях они сходятся в своих суждениях (и предельно последовательны в их вынесении), то оценка каждого конкретного вина не будет определяться законом случайного распределения ошибок: распределение получится резко двугорбым, причем причиной появления одного
Одно дело — подозревать, что лучники и астрономы, химики и маркетологи сталкиваются с одним и тем же законом распределения ошибок, и совсем другое — самому натолкнуться на частный случай этого закона. Подталкиваемые необходимостью анализировать данные астрономических наблюдений ученые, такие как Даниил Бернулли и Лаплас, постулировали в конце XVIII в. несколько вариантов закона, оказавшихся неверными. Однако выяснилось, что математическая функция, верно отражающая закон случайного распределения ошибок, — колоколообразная кривая — все это время была у них под носом. За много десятилетий до них она была открыта в Лондоне в контексте решения совсем иных задач.
Среди троих ученых, благодаря которым на колоколообразную кривую обратили внимание, реже всех воздается по заслугам именно ее первооткрывателю. Абрахам де Муавр совершил свое открытие в 1733 г., когда ему было за шестьдесят, однако до появления второго издания его книги «Об измерении случайности», вышедшего в свет пять лет спустя, об этом никто не знал. Де Муавр пришел к искомой форме кривой, когда пытался аппроксимировать числа, заполняющие треугольник Паскаля значительно дальше той строки, на которой оборвал его я, — сотнями и даже тысячами строк ниже. Когда Якоб Бернулли обосновывал свой вариант закона больших чисел, ему пришлось столкнуться с некоторыми свойствами чисел, появляющихся в этих строках. А числа действительно очень велики: например, одно из чисел в двухсотой строке треугольника Паскаля состоит из пятидесяти девяти цифр! Во времена Бернулли, да и вообще до тех пор, пока не появились компьютеры, эти числа было очень трудно высчитать. Именно поэтому, как я сказал, Бернулли обосновывал свой закон больших чисел, используя различные способы приближенного вычисления, что снижало практическую значимость результатов его работы. Де Муавр со своей кривой осуществил несравненно более точную аппроксимацию и потому значительно улучшил оценки Бернулли.
Как де Муавр осуществил свою аппроксимацию, становится понятно, если числа в ряду треугольника представить в виде высоты столбика на гистограмме — я поступил так с регистрационными карточками. Например, числа в третьей строке треугольника — 1, 2, 1. Тогда на гистограмме первый столбик будет высотой в одно деление, второй — вдвое выше, а третий — вновь высотой в одно деление. Рассмотрим теперь пять чисел в пятой строке: 1, 4, 6, 4, 1. На гистограмме будет пять столбиков, она вновь начнется с минимальной высоты, достигнет максимума в центре и продемонстрирует симметричное снижение. Если спуститься по треугольнику вниз, получатся гистограммы с огромным количеством столбиков, но поведение их будет тем же самым. Гистограммы для 10-й, 100-й и 1000-й строк треугольника Паскаля приведены ниже.
Столбцы в представленных выше гистограммах отображают относительную величину числа в 10-м, 100-м и 1000-м рядах треугольника Паскаля (см. выше). Числа по оси абсцисс — элементы строки треугольника, к которым относятся столбики. По традиции нумерация начинается с 0, а не с 1 (средняя и нижняя гистограммы обрезаны так, что элементы, столбики для которых имеют пренебрежимую высоту, на рисунке не представлены).
Если теперь провести кривые, соединяющие вершины столбиков на каждой из гистограмм, все они окажутся характерной формы, напоминающей колокол. А если несколько сгладить эти кривые, можно подобрать соответствующее им математическое выражение. Колоколообразная кривая — не просто визуализация чисел в треугольнике Паскаля: это инструмент, позволяющий получить точные и удобные в употреблении оценки значений чисел, появляющихся в расположенных ниже строках треугольника. В этом и состояло открытие де Муавра.