Чтение онлайн

на главную - закладки

Жанры

Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:

Ваш второй опрос призван определить долю коренных жителей Америки в населении штата Северная Дакота. Допустим, их истинная доля равняется 10 %, а доля некоренных жителей – 90 %. Теперь рассмотрим, насколько неправильными должны оказаться собранные вами данные, чтобы погрешность вашего опроса составила целых 10 %. Это могло бы произойти в двух случаях. Первый: ваш опрос мог показать, что доля коренных жителей Америки в населении Северной Дакоты составляет 0 %, то есть все население штата – некоренные американцы. Второй: согласно опросу, доля коренных жителей Америки в населении Северной Дакоты составляет 20 %, а доля некоренных жителей – 80 %. Итак, в первом случае вы упустили из виду всех коренных жителей Америки, а во втором в два раза завысили их долю в населении штата по сравнению с истинным положением дел. Это, конечно, серьезные ошибки проведения выборочного исследования. В обоих случаях ошибка вашей оценки составила 100 %: либо [(0 - 10)/10 = –1], либо [(20 - 10)/10 = 1]. А если бы вы упустили из виду лишь 20 % коренных жителей Америки – именно такую ошибку вы допустили в опросе, касающемся соотношения сторонников Республиканской

и Демократической партии в Северной Дакоте, – то в результате вашего опроса оказалось бы, что доля коренных жителей Америки в Северной Дакоте составляет 8 %, а доля некоренных жителей – 92 %, то есть в этом случае вы ошиблись бы всего на 2 % по сравнению с истинным соотношением коренных и некоренных жителей Америки в населении Северной Дакоты.

Когда p и (1 - p) близки к 50 %, относительно небольшие ошибки выборочного исследования трансформируются в крупные абсолютные ошибки результатов опроса.

И наоборот, когда p или (1 - p) близки к нулю, даже относительно крупные ошибки выборочного исследования трансформируются в небольшие абсолютные ошибки результатов опроса.

Одна и та же 20-процентная ошибка выборочного исследования исказила результат опроса, касающегося соотношения сторонников Республиканской и Демократической партии, на 10 %, исказив лишь на 2 % результат опроса о соотношении коренных и некоренных жителей Америки в населении Северной Дакоты. Поскольку стандартная ошибка любого опроса измеряется в абсолютных значениях (например, ±5 %), из нашей формулы следует, что эта ошибка приблизится к своему максимальному значению, когда p и (1 - p) окажутся близки к 50 % [55] .

55

По-видимому, самое простое доказательство, что функция f(p) = p(1 - p) = p - p^2 принимает максимальное значение при р = 0,5, – это математическое доказательство. Находим производную f'(p) = 1 - 2p, приравниваем ее к нулю и получаем уравнение 1 - 2p = 0. Решением этого уравнения будет р = 0,5. Что и требовалось доказать. (О том, что это максимум, свидетельствует вторая производная f''(p) = -2.) Прим. ред.

11. Регрессионный анализ

Волшебный эликсир

Может ли стресс на работе стать причиной вашей смерти? Да, вполне. Существуют убедительные доказательства того, что суровые условия на работе могут привести к преждевременной смерти, особенно в результате развития сердечно-сосудистых заболеваний. Однако это не тот вид стресса, о котором вы, наверное, подумали. Главы компаний, которым буквально каждый день приходится принимать чрезвычайно сложные и ответственные решения, определяющие дальнейшую судьбу их бизнеса, рискуют значительно меньше, чем их секретарши, бесконечно отвечающие на телефонные звонки, параллельно выполняя множество других задач, предусмотренных должностной инструкцией. Как такое может быть? Оказывается, самый опасный вид стресса на работе обусловлен невозможностью человека в достаточной степени контролировать способы и условия выполнения поставленных задач. Ряд исследований, проводившихся (по заказу правительства) в отношении тысяч британских мелких чиновников, показал, что от них практически не зависит, чем именно им предстоит заниматься и как именно это выполнять, что и является причиной их высокой смертности по сравнению с чиновниками более высоких рангов, ответственных за принятие важных решений. Согласно результатам исследования, человека убивает не стресс, связанный с повышенной ответственностью, а стресс, вызванный необходимостью делать работу, не имея возможности решать, как и когда.

Но не пугайтесь, эта глава не о стрессе на работе, сердечно-сосудистых заболеваниях или государственных служащих Британии. Нас прежде всего интересует, как ученые приходят к подобным выводам. Очевидно, что это не результат рандомизированного эксперимента. Мы не можем произвольно поручать людям некую работу, заставляя их долгие годы ею заниматься, а затем выяснять, кто из них раньше умер. (Случайным образом поручая людям выполнение тех или иных задач, мы рискуем нанести огромный вред государственной службе Британии, не говоря уже об этической стороне дела.) Вместо этого исследователи собирали о тысячах государственных служащих Британии подробные повторные данные, анализ которых позволяет выявить определенные связи, например между невозможностью человека в достаточной степени контролировать способы и условия выполнения своей работы и развитием сердечно-сосудистых заболеваний.

Но такой связи мало для того, чтобы сделать вывод о вреде тех или иных видов работ для здоровья человека. Если мы просто замечаем, что мелкие государственные служащие в иерархии британской государственной службы страдают сердечно-сосудистыми заболеваниями чаще других, то полученные нами результаты будут искажаться действием ряда других факторов. Например, можно было бы ожидать, что уровень образования мелких чиновников окажется ниже, чем у чиновников более высоких рангов. Может также выясниться, что среди мелких государственных служащих больше курящих (не исключено, что это объясняется их неудовлетворенностью работой). Вполне вероятно, что у этих людей было трудное детство, и это сузило перспективы их будущего карьерного роста. Или их невысокий уровень доходов не позволяет им уделять должное внимание своему здоровью. И так далее. Дело в том, что любое сравнительное исследование – изменение состояния здоровья у большой группы британских работников или какой-то другой крупной группы населения – не позволяет нам сделать далекоидущие выводы. Возможно, что другие источники изменения полученных нами данных внесут искажения в интересующую нас связь. Можем ли мы быть уверены в том, что именно невозможность человека в достаточной степени контролировать содержание, способы и условия выполнения своей работы является подлинной причиной развития у него сердечно-сосудистых заболеваний? Или истинная причина – в сочетании действия ряда факторов, которые оказались общими для данной категории людей?

Статистический инструмент под названием регрессионный анализ помогает решить данную проблему. А если конкретнее, то регрессионный анализ позволяет нам измерить величину зависимости между какой-то переменной и интересующим нас исходом, зафиксировав действие всех прочих факторов. Другими словами, мы можем вычленить влияние одной переменной (например, занятие определенным родом деятельности), сохраняя на постоянном уровне действие других переменных. Регрессионный анализ использовался при проведении упоминавшегося нами исследования, которое проводилось по заказу британского правительства и имело своей целью оценить, как невозможность человека в достаточной степени контролировать содержание, способы и условия выполнения своей работы сказывается на состоянии здоровья людей, схожих во всех остальных отношениях, например курильщиков. (Рядовые работники действительно курят больше своих начальников; это объясняет относительно малую величину разброса в сердечно-сосудистых заболеваниях во всей иерархии британской государственной службы.)

Большинство исследований, о которых вам приходилось читать в прессе, основываются на регрессионном анализе. Когда ученые приходят к выводу, что у детей, посещавших детсад, чаще возникают проблемы с успеваемостью в начальной школе, чем у детей, которые воспитывались дома, это вовсе не означает, что они случайным образом сформировали выборку из нескольких тысяч детей, одну половину которых отправили в детсады, а другую оставили на попечении родителей. Это также не означает, что исследователи просто сравнили успеваемость в начальной школе детей, посещавших детсад, и детей, находившихся дома, не отдавая себе отчета в том, что эти две группы детей фундаментально разнятся между собой по ряду других показателей. В разных семьях принимаются разные решения относительно воспитания детей именно потому, что эти семьи – разные. В одних семьях детей воспитывают оба родителя, в других – только один. Есть семьи, где работают оба родителя, а есть – где только один. Какие-то семьи более состоятельны и образованны, какие-то менее. Все эти факторы так или иначе сказываются на принятии решений относительно воспитания детей и не могут не влиять на их успеваемость во время учебы в начальной школе. В случае надлежащего выполнения регрессионный анализ помогает оценить влияние воспитания, исключив из рассмотрения другие факторы воздействия на детей: семейный доход, структуру семьи, образование родителей и т. п.

В приведенном выше предложении есть два ключевых словосочетания. Первое: «в случае надлежащего выполнения». Сегодня при наличии соответствующих данных и доступа к персональному компьютеру даже шестилетний ребенок может воспользоваться какой-либо статистической программой для получения результатов регрессионного анализа, поскольку это не потребует практически никаких умственных усилий. Проблема не в выполнении регрессионного анализа как такового, главная трудность – определить, какие именно переменные следует рассматривать в этом анализе и как это лучше всего сделать. Регрессионный анализ подобен многим современным универсальным электромеханическим инструментам: им относительно легко пользоваться, но трудно это делать эффективно, не говоря уже о том, что при ненадлежащем использовании, то есть неумелом обращении, он оказывается потенциально опасен.

Второе важное словосочетание: «помогает оценить». Наше исследование воспитания детей не дает нам «правильного» ответа относительно зависимости между способом воспитания ребенка (в детсаду или дома) и его успеваемостью в начальной школе. Вместо этого оно оценивает величину этой связи у конкретной группы детей на определенном отрезке времени. Можем ли мы сделать выводы, применимые к более широкой совокупности? Да, но при этом нам придется иметь дело с такими же ограничениями и условиями, с какими мы сталкиваемся, делая любой другой статистический вывод. Во-первых, используемая нами выборка должна быть репрезентативной, то есть представлять всю интересующую нас совокупность. Исследование 2000 детей в Швеции не позволит нам прийти к сколь-нибудь значимым выводам относительно оптимальных методов дошкольного образования детей в сельскохозяйственных районах Мексики. И во-вторых, не следует забывать о существовании разброса между выборками. Если мы выполняем ряд исследований, касающихся детей и их воспитания, то их результаты будут несколько отличаться между собой, даже если используемые при этом методологии будут одинаковы и совершенно надежны.

Регрессионный анализ подобен проведению опросов общественного мнения. Обнадеживает то, что при применении крупной репрезентативной выборки и правильной методологии наблюдаемая взаимосвязь между данными выборки не должна существенно отличаться от истинной взаимосвязи для совокупности в целом. Если у 10 000 человек, занимающихся спортом не менее трех раз в неделю, уровень заболеваемости сердечно-сосудистой системы значительно ниже, чем у 10 000 человек, не занимающихся спортом (но не отличающихся от первых 10 000 человек во всех остальных отношениях), то весьма высока вероятность того, что мы будем наблюдать аналогичную связь между регулярными занятиями спортом и уровнем заболеваемости сердечно-сосудистой системы для более широкой совокупности. Именно поэтому мы выполняем исследования такого рода. (Задача ученых вовсе не в том, чтобы по завершении исследования упрекнуть тех, кто не занимается спортом и имеет проблемы с сердцем, что в свое время им не следовало игнорировать эти занятия.)

Поделиться:
Популярные книги

Дядя самых честных правил 6

«Котобус» Горбов Александр
6. Дядя самых честных правил
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Дядя самых честных правил 6

Я снова граф. Книга XI

Дрейк Сириус
11. Дорогой барон!
Фантастика:
боевая фантастика
попаданцы
аниме
5.00
рейтинг книги
Я снова граф. Книга XI

По осколкам твоего сердца

Джейн Анна
2. Хулиган и новенькая
Любовные романы:
современные любовные романы
5.56
рейтинг книги
По осколкам твоего сердца

Не возвращайся

Гауф Юлия
4. Изменщики
Любовные романы:
5.75
рейтинг книги
Не возвращайся

Толян и его команда

Иванов Дмитрий
6. Девяностые
Фантастика:
попаданцы
альтернативная история
7.17
рейтинг книги
Толян и его команда

Ритуал для призыва профессора

Лунёва Мария
Любовные романы:
любовно-фантастические романы
7.00
рейтинг книги
Ритуал для призыва профессора

Воевода

Ланцов Михаил Алексеевич
5. Помещик
Фантастика:
альтернативная история
5.00
рейтинг книги
Воевода

Бастард

Осадчук Алексей Витальевич
1. Последняя жизнь
Фантастика:
фэнтези
героическая фантастика
попаданцы
5.86
рейтинг книги
Бастард

Дикая фиалка Юга

Шах Ольга
Фантастика:
фэнтези
5.00
рейтинг книги
Дикая фиалка Юга

Идущий в тени 4

Амврелий Марк
4. Идущий в тени
Фантастика:
боевая фантастика
6.58
рейтинг книги
Идущий в тени 4

Менталист. Эмансипация

Еслер Андрей
1. Выиграть у времени
Фантастика:
альтернативная история
7.52
рейтинг книги
Менталист. Эмансипация

Газлайтер. Том 1

Володин Григорий
1. История Телепата
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Газлайтер. Том 1

Я не князь. Книга XIII

Дрейк Сириус
13. Дорогой барон!
Фантастика:
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Я не князь. Книга XIII

Дворянская кровь

Седой Василий
1. Дворянская кровь
Фантастика:
попаданцы
альтернативная история
7.00
рейтинг книги
Дворянская кровь