Чтение онлайн

на главную - закладки

Жанры

Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:

Если на интуитивном уровне все это представляется вам вполне логичным, то вы уже на 93,2 % приблизились к пониманию сути центральной предельной теоремы [40] . Чтобы придать этому интуитивному выводу некую техническую солидность, нам необходимо продвинуться еще на один шаг вперед. Очевидно, когда вы заглядываете в поломанный автобус и видите там группу довольно упитанных людей в спортивных брюках свободного покроя, у вас тотчас же мелькает догадка, что вряд ли это бегуны на марафонские дистанции. Центральная предельная теорема позволяет нам подвести под свои предположения солидную теоретическую базу и придать им определенную степень уверенности.

40

Обратите

внимание на весьма остроумное использование в данном случае ложной точности.

Например, исходя из неких базовых вычислений я могу заключить, что в 99 случаях из 100 средний вес пассажиров любого случайным образом выбранного автобуса с бегунами будет отличаться не более чем на девять фунтов от среднего веса всех зарегистрированных участников марафона. Именно это служит статистическим подтверждением моей догадки, когда я натыкаюсь на поломанный автобус с людьми. Средний вес его пассажиров на двадцать один фунт превышает средний вес всех зарегистрированных участников марафона, а это значит, что вероятность принадлежности пассажиров этого автобуса к составу участников забега не превышает 1 шанс из 100. Это позволяет мне с 99-процентной уверенностью отвергнуть гипотезу о том, что встретившийся мне автобус перевозил спортсменов (иными словами, я могу рассчитывать на то, что сделанный мною вывод окажется правильным в 99 случаях из 100).

Правда, согласно теории вероятностей, в среднем я окажусь неправ в 1 случае из 100.

Анализ такого рода целиком следует из центральной предельной теоремы, которая, с точки зрения статистики, обладает такой же мощью и элегантностью, как действия Леброна Джеймса на баскетбольной площадке. Согласно центральной предельной теореме, средние значения выборок для любой совокупности будут распределены относительно ее среднего значения примерно по нормальному закону. Ниже я постараюсь разъяснить это положение.

1. Допустим, у нас есть некая совокупность, например все зарегистрированные участники марафона, и нас интересует вес каждого бегуна. Любая выборка участников марафона (например шестидесят бегунов, перевозимых каждым автобусом) будет характеризоваться средним значением их веса.

2. Если делать повторные выборки из всего состава зарегистрированных участников марафона, например формировать случайным образом группы из шестидесяти бегунов, то каждая из этих выборок будет характеризоваться собственным средним значением веса. Это и будут средние значения выборок.

3. Большинство этих средних значений будут очень близки к среднему значению веса для данной совокупности. Какие-то из них окажутся чуть больше, какие-то – чуть меньше. По чистой случайности лишь очень немногие из них будут существенно превышать или быть ниже среднего значения веса для данной совокупности.

Прислушайтесь к этой музыке, поскольку именно сейчас все звуки сливаются в мощное крещендо…

4. Центральная предельная теорема гласит, что эти средние значения выборок будут распределены относительно среднего значения совокупности примерно по нормальному закону. Нормальное распределение, как вы, наверное, помните из главы 2, представляет собой распределение колоколообразной формы (например, величины веса взрослых мужчин), в котором 68 % наблюдений находятся на расстоянии одного среднеквадратического отклонения от среднего значения, 95 % наблюдений – на расстоянии двух среднеквадратических отклонений и т. д.

5. Все эти утверждения будут истинными, как бы ни выглядело распределение исходной совокупности. Чтобы средние значения выборок были распределены по нормальному закону, вовсе не обязательно, чтобы совокупность, из которой получены эти выборки, имела нормальное распределение.

Рассмотрим реальные данные, например распределение семейного дохода в Соединенных Штатах. Семейный доход в США не распределен по нормальному закону, а, как правило,

скошен вправо. В любом данном году никакая из семей не может заработать меньше 0 долларов, поэтому у данного распределения должна быть нижняя граница. Между тем, годовые доходы у какой-то небольшой группы семей могут быть очень велики – сотни миллионов, а в отдельных случаях даже миллиарды долларов. В результате можно ожидать, что распределение семейного дохода в стране будет характеризоваться длинным «хвостом» справа, нечто наподобие этого:

Медиана семейного дохода в Соединенных Штатах составляет примерно 51 900 долларов; средний семейный доход – 70 900 долларов {57} . (Люди вроде Билла Гейтса сдвигают средний семейный доход вправо; вспомните последствия появления Билла Гейтса в баре, о которых рассказывалось в главе 2.) Теперь допустим, что мы берем случайную выборку из 1000 американских семей и собираем данные об их годовом семейном доходе. Что можно сказать об этой выборке, основываясь на приведенной выше информации и центральной предельной теореме?

57

U.S. Census Bureau.

Оказывается, довольно много. Прежде всего, можно подтвердить наше предположение о том, что среднее значение любой выборки будет равняться среднему значению совокупности, из которой такая выборка сформирована. Сущность репрезентативной выборки заключается в том, что она похожа на совокупность, из которой сформирована. Любая надлежащим образом созданная выборка не будет в среднем отличаться от Америки в целом. В такую выборку войдут и менеджеры хеджевых фондов, и бездомные, и полицейские, и все прочие основные группы населения, причем все они будут включены в выборку приблизительно в той пропорции, в какой представлены в соответствующей совокупности. Следовательно, можно ожидать, что средний семейный доход в репрезентативной выборке из 1000 американских семей приблизительно составит 70 900 долларов. Будет ли он в точности равен 70 900 долларам? Нет. Но существенно отличаться от этой суммы не будет.

Если мы возьмем несколько выборок из 1000 американских семей, то предположительно их средние значения будут гуппироваться вокруг среднего значения данной совокупности, то есть 70 900 долларов. Можно ожидать, что некоторые из средних значений будут несколько выше этой суммы, а другие – несколько ниже. Может ли среди этих выборок оказаться такая, у которой средний семейный доход составит 427 000 долларов? Разумеется да, однако это очень и очень маловероятно. (Не забывайте, что мы используем правильную методологию формирования выборок, иными словами, не проводим опрос на парковке возле Greenwich Country Club.) Столь же маловероятно, что средний семейный доход в надлежащим образом сформированной выборке из 1000 американских семей составит 8000 долларов.

Все наши рассуждения основываются на простейшей логике. Центральная предельная теорема позволяет пойти еще дальше, описывая ожидаемое распределение средних значений разных выборок, группирующихся вблизи среднего значения генеральной совокупности. А именно, средние значения этих выборок вблизи среднего значения нашей совокупности (в данном случае 70 900 долларов) распределены по нормальному закону. Вспомните, что форма распределения исходной совокупности значения не имеет. Распределение семейного дохода в Соединенных Штатах характеризуется значительным скосом, однако у распределения средних значений выборок скос отсутствует. Если бы мы взяли 100 разных выборок, каждая из которых включает 1000 семей, и построили график частоты наших результатов, то можно было бы ожидать, что средние значения этих выборок образуют хорошо знакомое нам «колоколообразное» распределение в районе 70 900 долларов.

Поделиться:
Популярные книги

Медиум

Злобин Михаил
1. О чем молчат могилы
Фантастика:
фэнтези
7.90
рейтинг книги
Медиум

Жена на четверых

Кожина Ксения
Любовные романы:
любовно-фантастические романы
эро литература
5.60
рейтинг книги
Жена на четверых

Великий род

Сай Ярослав
3. Медорфенов
Фантастика:
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Великий род

Дурная жена неверного дракона

Ганова Алиса
Любовные романы:
любовно-фантастические романы
5.00
рейтинг книги
Дурная жена неверного дракона

Черный маг императора

Герда Александр
1. Черный маг императора
Фантастика:
юмористическая фантастика
попаданцы
аниме
5.00
рейтинг книги
Черный маг императора

Приручитель женщин-монстров. Том 5

Дорничев Дмитрий
5. Покемоны? Какие покемоны?
Фантастика:
юмористическое фэнтези
аниме
5.00
рейтинг книги
Приручитель женщин-монстров. Том 5

Барон ненавидит правила

Ренгач Евгений
8. Закон сильного
Фантастика:
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Барон ненавидит правила

Приручитель женщин-монстров. Том 14

Дорничев Дмитрий
14. Покемоны? Какие покемоны?
Фантастика:
юмористическое фэнтези
аниме
фэнтези
5.00
рейтинг книги
Приручитель женщин-монстров. Том 14

Совершенный: Призрак

Vector
2. Совершенный
Фантастика:
боевая фантастика
рпг
5.00
рейтинг книги
Совершенный: Призрак

Покоривший СТЕНУ. Десятый этаж

Мантикор Артемис
3. Покоривший СТЕНУ
Фантастика:
фэнтези
попаданцы
рпг
5.00
рейтинг книги
Покоривший СТЕНУ. Десятый этаж

Книга пятая: Древний

Злобин Михаил
5. О чем молчат могилы
Фантастика:
фэнтези
городское фэнтези
мистика
7.68
рейтинг книги
Книга пятая: Древний

Последний попаданец

Зубов Константин
1. Последний попаданец
Фантастика:
фэнтези
попаданцы
рпг
5.00
рейтинг книги
Последний попаданец

Разведчик. Заброшенный в 43-й

Корчевский Юрий Григорьевич
Героическая фантастика
Фантастика:
боевая фантастика
попаданцы
альтернативная история
5.93
рейтинг книги
Разведчик. Заброшенный в 43-й

Её (мой) ребенок

Рам Янка
Любовные романы:
современные любовные романы
6.91
рейтинг книги
Её (мой) ребенок