Чтение онлайн

на главную - закладки

Жанры

Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:

Дальнейший анализ подтверждает ваше первоначальное предположение. Когда на место прибывает переводчик, оказывается, что сломавшийся автобус направлялся на Международный фестиваль любителей сосисок, который также проводится в вашем городе, причем в тот же день, что и марафонский забег. (Для большего правдоподобия замечу, что участники фестивалей любителей сосисок нередко ходят в спортивных брюках свободного покроя, которые не стесняют их движений.)

Примите мои поздравления! Если вам понятно, каким образом человек, просто окинув беглым взглядом группу пассажиров автобуса и оценив их вес, может прийти к выводу, что конечным пунктом назначения этого автобуса вряд ли может быть место старта марафонского забега, значит, на интуитивном уровне вы уже постигли базовую идею центральной предельной теоремы. И все, что вам остается, это уяснить некоторые детали. А если вы понимаете центральную предельную теорему, то и большинство форм статистических выводов наверняка покажутся вам интуитивно понятными.

Базовый принцип, лежащий в основе центральной предельной теоремы, заключается в том, что большая, надлежащим образом сформированная выборка будет похожа на совокупность, из которой она извлечена. Разумеется, от выборки к выборке будут наблюдаться определенные вариации (например, группа пассажиров в каждом автобусе, направляющемся к месту старта марафонского забега, будет несколько отличаться от группы пассажиров в других автобусах), однако вероятность того, что какая-либо выборка будет существенно разниться с генеральной совокупностью, крайне низка. Именно эта логика позволила вам прийти к указанному выше интуитивному умозаключению, когда вы подошли к сломавшемуся автобусу и беглым взглядом оценили средний вес его пассажиров. Да, марафонскую дистанцию нередко бегут люди довольно плотного телосложения; среди участников каждого крупного марафона немало спортсменов, вес которых превышает 200 фунтов. Однако большинство бегунов-марафонцев – худощавые люди. Таким образом, вероятность того, что столь значительное число упитанных бегунов по случайному стечению обстоятельств окажется в одном автобусе, чрезвычайно мала. Вы могли бы вполне уверенно заключить, что встретившийся вам автобус перевозит не марафонцев. Конечно, не исключено, что вы ошибаетесь, однако, согласно теории вероятностей, шансы на ошибку в данном случае очень и очень невелики.

В этом и состоит интуитивная основа центральной предельной теоремы. Воспользовавшись кое-какими статистическими «прибамбасами», можно вычислить вероятность того, окажетесь ли вы правы или неправы. Например, мы можем подсчитать, что в случае, когда речь идет о 10 000 участниках марафонского забега, средний вес которых равняется 155 фунтов, вероятность того, что средний вес случайной выборки из 60 таких бегунов (примерная вместимость одного автобуса) окажется не ниже 220 фунтов, составляет менее одного шанса из 100. Давайте на данном этапе доверимся интуиции; впоследствии у нас будет немало возможностей выполнить соответствующие вычисления.

Центральная предельная теорема позволяет нам сделать перечисленные ниже выводы (их мы детально проанализируем в следующей главе).

1. Располагая подробными сведениями о какой-то совокупности, мы можем сделать далекоидущие выводы о любой надлежащим образом сформированной из нее выборке. Допустим, например, что у директора школы есть детальная информация о результатах сдачи стандартизованного теста всеми учащимися школы (среднее значение, среднеквадратическое отклонение и т. д.). Это значимые характеристики всей совокупности. Теперь предположим, что на следующей неделе ожидается прибытие некоего чиновника окружного управления образования, который намерен провести такой же стандартизованный тест для 100 случайным образом отобранных учеников. Результаты, продемонстрированные этой выборкой учащихся, будут использованы для оценки качества преподавания в данной школе.

Может ли директор школы с уверенностью утверждать, что баллы этих 100 произвольно отобранных учеников будут точно отражать результаты всех учащихся данной школы при сдаче этого теста? Вполне. Согласно центральной предельной теореме, средний тестовый балл группы из 100 учащихся, как правило, не будет существенно отличаться от среднего балла всех учеников данной школы.

2. Располагая подробными сведениями о какой-либо надлежащим образом сформированной выборке (среднее значение и среднеквадратическое отклонение), мы можем сделать чрезвычайно точные выводы относительно совокупности, из которой эта выборка была получена. По сути, это обратный вариант ситуации, которую мы рассматривали в приведенном выше примере. Иными словами, мы должны поставить себя на место чиновника окружного управления образования, который оценивает школы в своем округе. В отличие от директора школы, этот чиновник не располагает результатами (или не доверяет им) сдачи стандартизованного теста всеми учащимися конкретной школы. Вместо этого он проводит в каждой школе аналогичный тест для произвольной выборки из 100 учеников.

Может ли этот чиновник быть уверен, что качество преподавания в какой-либо конкретной школе в целом можно точно оценить, основываясь на результатах сдачи стандартизованного теста группой из 100 учащихся соответствующей школы? Да, может. Центральная предельная теорема гласит, что достаточно большая выборка, как правило, не будет существенно отличаться от генеральной совокупности, а это означает, что результаты, продемонстрированные этой выборкой (то есть баллы 100 случайным образом отобранных учащихся), с достаточной степенью точности отражают результаты соответствующей совокупности в целом (то есть баллы всех учащихся конкретной школы). Разумеется, именно на таком принципе строятся все опросы. Методологически правильный опрос 1200 человек может многое поведать о настроениях всего населения страны.

Итак, если сказанное выше в п. 1 верно, то сказанное в п. 2 также должно быть верно, и наоборот. Если какая-то выборка, как правило, хорошо отражает совокупность, из которой она была сформирована, то верно и обратное: совокупность, как правило, будет похожа на выборку, сформированную из нее. (Если дети похожи на своих родителей, то и родители должны быть похожи на своих детей.)

3. Наличие данных о какой-то конкретной выборке и данных о какой-то конкретной совокупности позволяет определить, согласуется ли эта выборка с другой выборкой, которая, возможно, получена из той же совокупности. Здесь речь идет, по сути, о примере с пропавшим автобусом, приведенном в начале главы. Нам известен (приблизительно) средний вес участников марафона. Нам также известен (приблизительно) средний вес пассажиров сломавшегося автобуса. Центральная предельная теорема позволяет нам вычислить вероятность того, что конкретная выборка (упитанные люди в автобусе) была сформирована из данной совокупности (участники марафонского забега). Если эта вероятность невелика, то с высокой степенью уверенности можно заключить, что данная выборка сформирована не из интересующей нас совокупности (например, люди в автобусе отнюдь не похожи на группу бегунов-марафонцев, направляющихся к месту старта).

4. Наконец, если нам известны исходные характеристики двух выборок, то мы можем определить, сформированы ли они из одной и той же совокупности. Вернемся еще раз к становящемуся все более абсурдным примеру с автобусом. Теперь нам известно, что марафонский забег будет проводиться в данном городе – равно как и Международный фестиваль любителей сосисок. Допустим, что в обеих группах тысячи участников и обе наняли десятки автобусов, в каждый из которых поместили произвольные выборки либо бегунов-марафонцев, либо поглотителей сосисок. Допустим также, что при перевозке участников этих мероприятий столкнулись два автобуса. (Я уже признал абсурдность своего примера, поэтому сценарий развития событий не должен вас удивлять. Просто продолжайте спокойно читать дальше.) Будучи, как было сказано выше, одним из видных общественных активистов в городе, вы прибываете на место происшествия и пытаетесь определить, ехали ли оба автобуса на одно и то же мероприятие (фестиваль любителей сосисок или марафонский забег). К несчастью, никто из пострадавших не говорит по-английски, но врачи скорой помощи, оперативно прибывшие на место происшествия, сообщают вам подробную информацию о весе каждого из пассажиров в столкнувшихся автобусах.

Основываясь лишь на этих сведениях, вы можете заключить, куда направлялись эти автобусы: на одно и то же мероприятие или на два разных. Как и прежде, положимся на интуицию. Допустим, что средний вес пассажиров в одном автобусе равняется 157 фунтам при среднеквадратическом (стандартном) отклонении 11 фунтов (это означает, что вес значительной части пассажиров находится в диапазоне от 146 до 168 фунтов). Теперь предположим, что средний вес пассажиров второго автобуса составляет 211 фунтов при среднеквадратическом отклонении 21 фунт (это означает, что вес значительной части пассажиров находится в диапазоне от 190 до 232 фунтов). Забудем на какое-то время о статистических формулах и будем опираться исключительно на логику: представляется ли вам вполне вероятным, что пассажиры обоих автобусов были случайным образом извлечены из одной и той же совокупности?

Вовсе нет. Более вероятным кажется то, что в одном из двух автобусов ехали бегуны-марафонцы, а в другом – любители сосисок. Помимо ощутимой разницы в показателях среднего веса пассажиров двух автобусов, нетрудно также заметить, что разброс в весе между этими двумя автобусами очень велик по сравнению с разбросом в весе в каждом из двух автобусов. Максимальный вес людей в «худощавом» автобусе (168 фунтов, что на одно среднеквадратическое отклонение больше среднего значения) меньше, чем минимальный вес людей в «упитанном» автобусе (190 фунтов, что на одно среднеквадратическое отклонение меньше среднего значения). Это верный признак (как со статистический, так и с логической точки зрения) того, что две выборки сформированы, скорее всего, из разных совокупностей.

Популярные книги

Случайная свадьба (+ Бонус)

Тоцка Тала
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Случайная свадьба (+ Бонус)

Новый Рал 2

Северный Лис
2. Рал!
Фантастика:
фэнтези
7.62
рейтинг книги
Новый Рал 2

Царь Федор. Трилогия

Злотников Роман Валерьевич
Царь Федор
Фантастика:
альтернативная история
8.68
рейтинг книги
Царь Федор. Трилогия

Виконт. Книга 1. Второе рождение

Юллем Евгений
1. Псевдоним `Испанец`
Фантастика:
фэнтези
боевая фантастика
попаданцы
6.67
рейтинг книги
Виконт. Книга 1. Второе рождение

Огни Аль-Тура. Желанная

Макушева Магда
3. Эйнар
Любовные романы:
любовно-фантастические романы
эро литература
5.25
рейтинг книги
Огни Аль-Тура. Желанная

(не)Бальмануг.Дочь

Лашина Полина
7. Мир Десяти
Любовные романы:
любовно-фантастические романы
5.00
рейтинг книги
(не)Бальмануг.Дочь

Кодекс Охотника. Книга X

Винокуров Юрий
10. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
6.25
рейтинг книги
Кодекс Охотника. Книга X

Я — Легион

Злобин Михаил
3. О чем молчат могилы
Фантастика:
боевая фантастика
7.88
рейтинг книги
Я — Легион

Кодекс Охотника. Книга XIV

Винокуров Юрий
14. Кодекс Охотника
Фантастика:
боевая фантастика
попаданцы
аниме
5.00
рейтинг книги
Кодекс Охотника. Книга XIV

Неудержимый. Книга II

Боярский Андрей
2. Неудержимый
Фантастика:
городское фэнтези
попаданцы
5.00
рейтинг книги
Неудержимый. Книга II

Чужой портрет

Зайцева Мария
3. Чужие люди
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Чужой портрет

Ученичество. Книга 2

Понарошку Евгений
2. Государственный маг
Фантастика:
фэнтези
попаданцы
5.00
рейтинг книги
Ученичество. Книга 2

Романов. Том 1 и Том 2

Кощеев Владимир
1. Романов
Фантастика:
фэнтези
попаданцы
альтернативная история
5.25
рейтинг книги
Романов. Том 1 и Том 2

Весь цикл «Десантник на престоле». Шесть книг

Ланцов Михаил Алексеевич
Десантник на престоле
Фантастика:
альтернативная история
8.38
рейтинг книги
Весь цикл «Десантник на престоле». Шесть книг