Чтение онлайн

на главную - закладки

Жанры

Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:

Проблема состоит в том, что наша способность анализировать данные развилась значительно больше, чем понимание того, как нам следует поступать с результатами этого анализа. Вы можете соглашаться или нет с решением Еврокомиссии, запрещающим применение страховых надбавок, связанных с полом человека, но я абсолютно уверен, что это далеко не последнее спорное решение такого рода. Нам нравится думать о числах как о «холодных, неумолимых фактах». Если вычисления выполнены правильно, то у нас должен получиться правильный ответ. Однако более интересная и опасная реальность заключается в том, что подчас мы можем правильно все рассчитать – и двинуться в опасном направлении. Мы можем разрушить финансовую систему или упечь за решетку двадцатидвухлетнего белого парня, которому не повезло оказаться в определенное время в определенном месте, потому что, согласно нашей статистической модели, он явился сюда затем, чтобы купить наркотики. Какой бы соблазнительной ни была элегантность и точность вероятностных моделей, они не заменят нам здравого размышления о сути и цели выполняемых вычислений.

7. Почему

так важны данные

«Мусор на входе – мусор на выходе»

Весной 2012 года в популярном журнале Science вышел сенсационный материал. В нем говорилось, что на основании результатов одного исследования, опирающегося на последние достижения науки, ученые сделали вывод, что когда самка дрозофилы (плодовой мушки) категорически отвергает ухаживания самца, он впадает в отчаяние и начинает топить горе в алкоголе. Газета The New York Times так описывала этот эксперимент в своей передовице: «Это были молодые самцы, ищущие любовных приключений. Будучи многократно отвергнутыми группой привлекательных самок, порхавших неподалеку, они поступили так же, как и многие мужчины в аналогичном случае, – запили с горя, используя алкоголь как болеутоляющее средство от неразделенной любви» {51} .

51

Benedict Carey, Learning from the Spurned and Tipsy Fruit Fly, New York Times, March 15, 2012.

Это исследование дает нам возможность лучше уяснить работу системы вознаграждения, встроенную в мозг человека, что, в свою очередь, должно помочь в поиске новых стратегий борьбы с алкоголизмом и наркоманией. Один специалист по вопросам наркозависимости написал, что знакомство с результатами этого эксперимента позволило ему «заглянуть в далекое прошлое и увидеть там истоки системы вознаграждения, которая определяет фундаментальные модели поведения, такие как секс, еда и сон».

Поскольку я не являюсь экспертом в данной области, после прочтения публикации о неразделенной любви самцов дрозофилы у меня возникли две несколько различающиеся между собой реакции. Во-первых, появилось чувство ностальгии по временам студенческой молодости. Во-вторых, мой «внутренний исследователь» заинтересовался, каким образом самцам дрозофилы удавалось запить с горя. Может быть, где-то поблизости находился миниатюрный бар для мушек-дрозофил с широким ассортиментом фруктовых алкогольных напитков, которые подавал бармен-дрозофил, всегда готовый выслушать вас и посочувствовать вашему горю? Наверное, в баре ненавязчиво звучала музыка в стиле кантри, вызывавшая сильный прилив чувств у мушек-дрозофил, чьи жизненые мечты потерпели крушение?

В действительности все оказалось гораздо проще и прозаичнее. Одной группе самцов дрозофилы исследователи предоставили возможность беспрепятственно спариваться с самками, еще не подобравшими себе пару. Другой разрешили попытать счастья среди самок, которые уже подобрали себе пару и по этой причине были равнодушны к ухаживаниям других самцов. Затем обеим группам самцов дрозофилы были предложены на выбор питательные соломинки, содержащие две разные «диеты»: стандартное питание мушек-дрозофил плюс закваска и сахар, а также кое-что «покрепче»: закваска, сахар и 15-процентный раствор спирта. Самцы, которые провели несколько дней в бесплодных попытках найти себе пару среди безразличных к ним самок, оказались более склонны к «горячительному».

Какими бы легкомысленными ни казались эти выводы, они очень важны для человека, поскольку указывают на связь между стрессом, ответными химическими реакциями в мозгу человека и тягой к алкоголю. Тем не менее эти результаты – не триумф статистики. Это триумф данных, сделавших возможным этот относительно фундаментальный статистический анализ. Изюминка исследования заключалась в нахождении пути формирования двух групп – сексуально удовлетворенных и сексуально неудовлетворенных самцов дрозофилы – и последующем поиске способа сравнения их тяги к спиртному. После того как ученым удалось реализовать свой замысел, обработка соответствующих данных оказалась не сложнее, чем написание школьного реферата по математике.

Данные для статистики – примерно то же самое, что для выдающегося куортербека мощная линия блокирующих игроков. Сами по себе они не представляют особого интереса для зрителей, но без них выдающийся куортербек не сможет проявить свои способности. В большинстве книг по статистике предполагается, что вы используете надежные данные, точно так же как в любой кулинарной книге предполагается, что для приготовления блюд вы не станете покупать тухлое мясо или гнилые овощи. Даже самый замечательный рецепт не сделает вкусным блюдо, приготовленное из некачественных продуктов. То же касается статистики: даже самый изощренный анализ не принесет никакой пользы, если за основу взяты сомнительные данные. Отсюда выражение: «Мусор на входе – мусор на выходе» [35] . Данные заслуживают уважительного отношения – как и линия блокирующих игроков в американском футболе.

35

Известный принцип программирования, в соответствии с которым неверные входные данные не могут привести к правильному результату. Прим. перев.

Как правило, данные выполняют одну из трех функций. Во-первых, нам может потребоваться определенная выборка данных, соответствующая характеристикам генеральной совокупности (так

называемая репрезентативная выборка). Если наша задача – оценить отношение избирателей к конкретному политическому деятелю, нам понадобится опросить некоторую их часть (выборку) в соответствующем избирательном округе или в целом в стране. (Обратите внимание: нас не интересует выборка, которая представляла бы каждого, кто проживает на искомой территории; нам требуется выборка лиц, планирующих участвовать в голосовании.) Одно из самых фундаментальных положений статистики, более глубокому разъяснению которого мы уделим место в двух следующих главах, заключается в том, что выводы, сделанные на основе достаточно больших, надлежащим образом сформированных выборок, могут оказаться такими же точными, как и в случае, если бы мы попытались получить ту же информацию от всего населения.

Самый легкий способ собрать репрезентативную выборку большой генеральной совокупности – выбрать ее некоторое подмножество случайным образом. (Вы, наверное, испытаете потрясение, когда узнаете, что это называется простой случайной выборкой.) Ключом к данной методологии является то, что каждое наблюдение в соответствующей совокупности должно иметь одинаковые шансы на включение в выборку. Если вы собираетесь опросить случайную выборку, состоящую из 100 взрослых, на территории, где проживает 4328 взрослых, то ваша методология должна гарантировать, что у каждого из этих 4328 человек одинаковые шансы оказаться в числе той сотни, которую вы намерены опросить. Книги по статистике почти всегда иллюстрируют это положение вытаскиванием разноцветных шариков из урны. (В действительности это практически единственное место, где слово «урна» используется более или менее регулярно.) Если в какой-нибудь гигантской урне находится 60 000 голубых и 40 000 красных шариков, то наиболее вероятным составом выборки из 100 шариков, случайным образом вынутых из урны, было бы 60 голубых и 40 красных шариков. Если бы мы проделали такой эксперимент несколько раз, то, разумеется, всякий раз наблюдались бы какие-то отклонения (например, в одной выборке оказалось бы 62 голубых и 38 красных шариков, а в другой – 58 голубых и 42 красных шарика). Однако вероятность вытащить какую-либо произвольную выборку, которая по своему составу существенно отличалась бы от общего соотношения голубых и красных шариков, крайне мала.

Правда, на практике возникают кое-какие проблемы. Большинство совокупностей, которые могут представлять для нас интерес в реальной жизни, как правило, гораздо сложнее, чем урна с разноцветными шариками. Как, например, получить случайную выборку взрослого населения Америки, которую можно было бы использовать для проведения телефонного опроса? Даже такое элегантное на первый взгляд решение, как устройство для произвольного набора телефонных номеров, не лишено определенных недостатков. У некоторых людей (например, у малоимущих) может не быть телефона. Другие (обычно люди с высоким уровнем дохода) зачастую бывают не очень-то склонны отвечать на телефонные звонки, не представляющие для них непосредственного интереса. В главе 10 я опишу ряд стратегий, используемых компаниями, проводящими опросы, для решения проблем подобного рода, возникающих при формировании выборки (с появлением мобильной связи эти проблемы еще больше усложнились). Ключевая идея заключается в том, что надлежащим образом сформированная выборка будет полностью отражать структуру той совокупности, из которой она извлечена. Интуитивно вы можете представить себе это на примере варки супа в большой кастрюле. Если предварительно хорошенько размешать суп, то одна его ложка позволит вам составить достаточно полное представление о его вкусовых качествах.

В любом учебнике по статистике вы встретите значительно больше подробностей относительно методов формирования выборки. Компании, проводящие опросы и выполняющие маркетинговые исследования, тратят немало времени на поиск наиболее эффективных с экономической точки зрения способов получения надежных репрезентативных данных из разных совокупностей. На данном этапе вам необходимо уяснить несколько принципиальных положений. 1) Репрезентативная выборка – чрезвычайно важная вещь, поскольку она позволяет вам воспользоваться рядом наиболее мощных инструментов, которые имеются в распоряжении статистики. 2) Получить хорошую выборку гораздо сложнее, чем может показаться на первый взгляд. 3) Многие из самых ошибочных статистических утверждений обусловлены применением совершенно правильных статистических методов к плохим выборкам, а вовсе не наоборот. 4) Размер выборки имеет значение – чем она больше, тем лучше. Подробнее об этом мы поговорим в следующих главах, но уже сейчас вам должно быть интуитивно понятно, что крупная выборка дает возможность нивелировать любые аномальные отклонения. (Кастрюля супа, несомненно, более точно отражает его истинный вкус, чем ложка супа.) Важное предостережение: наращивание размера выборки не позволяет компенсировать ошибки, допущенные при выборе ее структуры (так называемую систематическую ошибку). Единственный способ устранения ошибок, порождаемых плохой выборкой, – использование хорошей выборки. Никакой суперкомпьютер или мудреная формула не помогут вам обеспечить правильность результатов общенационального телефонного опроса в преддверии президентских выборов, если в соответствующую выборку будут включены исключительно жители Вашингтона, потому что они обычно голосуют не совсем так, как остальная Америка, и даже если вы опросите не 1000, а 100 000 жителей этого округа, это не устранит данную фундаментальную проблему вашего опроса. Более того, применение крупной выборки, в которую вкралась систематическая ошибка, несомненно хуже небольшой выборки с такой же систематической ошибкой, поскольку это создает ложное мнение о надежности полученного результата.

Поделиться:
Популярные книги

Para bellum

Ланцов Михаил Алексеевич
4. Фрунзе
Фантастика:
попаданцы
альтернативная история
6.60
рейтинг книги
Para bellum

Последний рейд

Сай Ярослав
5. Медорфенов
Фантастика:
фэнтези
аниме
5.00
рейтинг книги
Последний рейд

Идеальный мир для Лекаря 9

Сапфир Олег
9. Лекарь
Фантастика:
боевая фантастика
юмористическое фэнтези
6.00
рейтинг книги
Идеальный мир для Лекаря 9

Муж на сдачу

Зика Натаэль
Любовные романы:
любовно-фантастические романы
5.00
рейтинг книги
Муж на сдачу

Последняя Арена 7

Греков Сергей
7. Последняя Арена
Фантастика:
рпг
постапокалипсис
5.00
рейтинг книги
Последняя Арена 7

Мастер 7

Чащин Валерий
7. Мастер
Фантастика:
фэнтези
боевая фантастика
попаданцы
технофэнтези
аниме
5.00
рейтинг книги
Мастер 7

Иван Московский. Первые шаги

Ланцов Михаил Алексеевич
1. Иван Московский
Фантастика:
героическая фантастика
альтернативная история
5.67
рейтинг книги
Иван Московский. Первые шаги

Случайная жена для лорда Дракона

Волконская Оксана
Фантастика:
юмористическая фантастика
попаданцы
5.00
рейтинг книги
Случайная жена для лорда Дракона

Идеальный мир для Социопата 2

Сапфир Олег
2. Социопат
Фантастика:
боевая фантастика
рпг
6.11
рейтинг книги
Идеальный мир для Социопата 2

Войны Наследников

Тарс Элиан
9. Десять Принцев Российской Империи
Фантастика:
городское фэнтези
попаданцы
аниме
5.00
рейтинг книги
Войны Наследников

Попаданка для Дракона, или Жена любой ценой

Герр Ольга
Любовные романы:
любовно-фантастические романы
7.17
рейтинг книги
Попаданка для Дракона, или Жена любой ценой

Серые сутки

Сай Ярослав
4. Медорфенов
Фантастика:
фэнтези
аниме
5.00
рейтинг книги
Серые сутки

Баоларг

Кораблев Родион
12. Другая сторона
Фантастика:
боевая фантастика
попаданцы
рпг
5.00
рейтинг книги
Баоларг

Кодекс Крови. Книга III

Борзых М.
3. РОС: Кодекс Крови
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Крови. Книга III