Идеальная ставка
Шрифт:
Сравнивая полученные результаты, Гальтон заметил, что потомки «больших родителей» меньше их по размеру, а потомки «маленьких родителей» – больше. Гальтон назвал это явление «регрессией к среднему». Вскоре он заметил ту же закономерность у людей, рассматривая соотношение роста родителей и детей.
Конечно, внешность ребенка – результат воздействия многих факторов. Некоторые из них изучены, другие – нет. Гальтон понимал, что в точности проследить роль каждого фактора невозможно, но при помощи регрессионного анализа он надеялся выяснить, какие факторы имеют большее значение, чем другие. Например, он заметил, что, хотя родительские признаки играют очень важную роль, некоторые черты могут «перескакивать» через поколение, переходя к детям от бабушек и дедушек и даже прабабушек и прадедушек. Гальтон полагал, что каждый предок вносит в наследственные признаки ребенка свою долю, и очень
Эта таблица произвела на Гальтона столь сильное впечатление, что в январе 1898 года он предложил журналу Nature ее напечатать.
Ученый долго размышлял над тем, как различные факторы влияют на такие признаки, как, например, рост ребенка, и кропотливо собирал данные для своих исследований. К сожалению, ограниченные познания в математике не позволили ему в полной мере использовать накопленную информацию. На момент встречи с Пирсоном Гальтон не знал, как точно рассчитать степень изменения того или иного фактора, способную повлиять на конечный результат.
Схема наследования по Местону
Гальтон сформулировал свою теорию в самых общих чертах, но строгий вид ей с опорой на математические расчеты придал Пирсон. Вскоре они попытались применить свои идеи к решению вопросов наследования. Оба видели в регрессии к среднему потенциальную проблему: как общество может быть уверено, что признаки, свойственные «высшей» расе, не будут утеряны последующими поколениями? По мнению Пирсона, нация могла улучшать свои характеристики «за счет постоянного пополнения высококачественного материала».
С сегодняшней точки зрения, Пирсон противоречил сам себе. В отличие от многих современников, он выступал за признание социального и интеллектуального равенства женщин и мужчин, но в то же время использовал статистические методы для доказательства превосходства одних рас над другими. Он выступал против законов, ограничивающих детский труд, утверждая, что дети не должны служить обществу обузой. Сегодня подобные идеи звучат более чем сомнительно. Тем не менее работы Пирсона имели огромное влияние. Вскоре после смерти Гальтона в 1911 году Пирсон создал первый в мире факультет статистики в Университетском колледже Лондона. Опираясь на таблицу, которую Гальтон в свое время отправил в Nature, Пирсон разработал метод «множественной регрессии»: рассматривая несколько потенциально влиятельных факторов, он установил, каким образом каждый из них воздействует на заданный результат.
Теория регрессии легла и в основу работ исследователей из Университета Альберты. Но если Гальтон и Пирсон использовали ее для изучения наследственных признаков у детей, то Болтон и Чэпмен попытались найти ей применение в оценке разных факторов, влияющих на шансы лошади на ипподроме. Что важнее: ее вес или процент выигранных забегов? Существует ли зависимость между скоростью лошади и репутацией жокея?
Болтон впервые столкнулась с миром азартных игр еще в юном возрасте. «Я была совсем маленькой, – вспоминала она, – когда отец взял меня с собой на скачки. Очевидно, моя детская ручка безошибочно указала будущего победителя». Но, несмотря на неожиданный успех, больше на ипподром родители ее не водили. Лишь спустя 20 лет Болтон вернулась на скачки, но теперь стремилась угадать победителей при помощи более рационального метода.
Впервые мысль о методике прогнозирования исхода скачек пришла ей в голову в 1970-х, когда Болтон была студенткой Университета Куинс в Канаде. Болтон интересовало моделирование выбора – область экономики, которая исследует, как меняются прибыли и издержки в зависимости от принятия того или иного решения. Дипломную работу Болтон писала в соавторстве с Чэпменом, который тоже занимался этой проблемой. Чэпмен давно интересовался играми и собрал большой массив данных о результатах забегов. Студенты поставили перед собой задачу выяснить, как можно использовать такого рода информацию в прогнозировании.
Спустя два года после свадьбы они отправили статью о проведенных исследованиях в журнал Management Science. Изучение методов прогнозирования набирало тогда популярность, и редакция журнала отнеслась к статье очень внимательно. «Ее показали сразу нескольким рецензентам», – вспоминала Болтон. Статья прошла четыре уровня проверки, прежде чем летом 1986 года была опубликована.
Болтон и Чэпмен предположили, что шансы конкретной лошади на выигрыш зависят от ее квалификации, для определения которой они сопоставляли ряд факторов, например, таких как стартовая позиция. Чем меньше был номер, под которым выступала лошадь, тем ближе к внутренней части беговой дорожки она стартовала, что увеличивало ее шансы на победу, так как ей приходилось преодолевать меньшее расстояние. Основываясь на методике регрессионного анализа, исследователи предположили, что увеличение стартового номера приведет к снижению квалификации.
Другой фактор – вес лошади. Здесь связь с квалификацией менее очевидна: в некоторых соревнованиях действуют весовые ограничения, не позволяющие выступать «тяжелым» лошадям, хотя у быстрых лошадей вес часто бывает выше среднего. Завсегдатаи скачек могли не согласиться с этим утверждением, однако Болтон и Чэпмена их мнение не интересовало: они просто положились на регрессионный анализ и искали зависимость между весом и квалификацией.
Согласно модели, разработанной Болтон и Чэпменом, квалификация зависит от девяти возможных факторов, включая вес, среднюю скорость на последних забегах и стартовую позицию. Проще всего было бы показать, как те или иные факторы влияют на квалификацию лошади, при помощи таблицы, наподобие предложенной Гальтоном журналу Nature. Однако в реальной жизни все сложнее. Таблица Гальтона демонстрирует влияние родственников на характерные черты ребенка, однако не дает полной картины, так как у человека не все черты – наследственные. Свое воздействие на него оказывают факторы, связанные с окружающей средой, в том числе скрытые. Более того, у аккуратных квадратиков с надписями «мать», «отец» и другими на самом деле не такие уж четкие границы – если у отца ребенка есть какие-то черты, они могут быть также у его бабушки с дедушкой. Таким образом, мы не можем сказать, что каждый значимый фактор полностью независим от остальных. То же самое относится к лошадиным скачкам. Наряду с девятью факторами, влияющими на выступление лошади, Болтон и Чэпмен учитывали фактор неопределенности, иначе говоря, всевозможные сюрпризы, то есть неожиданные события, которые могут произойти во время забега.
Научившись измерять квалификацию лошади, исследователи конвертировали полученные данные в прогноз на победу каждой лошади. Они рассчитывали суммарную квалификацию лошадей в забеге и определяли вероятность победы конкретной лошади в зависимости от ее вклада в общий показатель.
Чтобы понять, какие факторы можно использовать для прогнозов, Болтон и Чэпмен применили свою модель к результатам двух сотен забегов. Обработка информации стала поистине актом героизма, потому что данные хранились на десятках компьютерных перфокарт. «Это была огромная коробка, – рассказывала Болтон, – и я годами таскала ее с собой». Перенос данных на компьютер тоже был непростой задачей: на ввод информации по одному забегу уходило около часа.
Из девяти факторов, протестированных Болтон и Чэпменом, наиболее важной для принятия решения о ставке оказалась средняя скорость. А вот вес животного, судя по всему, не играл никакой роли. Либо этот фактор был нерелевантным, либо перекрывался другим, более значимым фактором, так же как фактор воздействия дедушки на внешность внука перекрывается влиянием отцовских генов.
То, какие факторы оказались самыми важными, удивило даже самих исследователей. В ранней версии модели Билла Бентера отмечалось существенное влияние на размер ставки количества предыдущих забегов, в которых участвовала лошадь. Внятного объяснения, почему этот фактор столь значим, не было. Некоторые игроки ссылались на то, что каждый раз имел место «особый случай», но Бентер избегал спекуляций подобного рода. Он знал, что разные факторы могут накладываться друг на друга. Вместо того чтобы анализировать значение каждого из них, он сосредоточился на разработке модели, которая воспроизводила бы результат реального, задокументированного забега. Так же как игроки, выискивавшие рулетку с дефектом, он надеялся получить действенный инструмент прогнозирования без скрупулезного разбора факторов, лежащих в его основе.