Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:
Если расстояние от среднего значения для одной переменной в целом соответствует – по величине и направлению – расстоянию от среднего значения для другой переменной (например, для людей, рост которых существенно отличается в ту или другую сторону от среднего значения роста, значения их веса, как правило, существенно отличаются от среднего значения веса, причем в том же направлении, что и рост), то у нас есть основания говорить о сильной положительной корреляции.
Если же расстояние от среднего значения для одной переменной в целом соответствует аналогичному расстоянию от среднего значения для другой переменной, но в противоположном направлении (например, у людей, которые чаще среднего занимаются физическими упражнениями, как правило, вес гораздо ниже среднего), то у нас есть основания говорить о сильной отрицательной корреляции.
Если две переменные в целом не отклоняются от среднего значения сколь-нибудь существенно (например, размер обуви и интенсивность
Я чувствую, вы перенапряглись, читая этот раздел. Хочу вас утешить: вскоре мы вернемся к Netflix и тому, как ей удается угадывать ваш интерес к тем или иным фильмам. Однако вначале поразмышляем над еще одним событием, где корреляция играет немаловажную роль, – SAT. Да, именно SAT, о котором говорилось в главе 3. Этот тест (первоначальное название – Scholastic Aptitude Test) представляет собой стандартизированный экзамен, состоящий из трех разделов: математика, чтение и письмо. Возможно, вам уже приходилось его сдавать (или придется сдавать в будущем). Не исключено, что вы особо не задумывались над тем, почему вам нужно его сдавать. Цель этого экзамена – оценить вашу способность к обучению и спрогнозировать вашу успеваемость в колледже или университете. Разумеется, у вас (и особенно у тех из вас, кому не нравятся стандартизированные тесты) может возникнуть резонный вопрос: уж не для этого ли предназначена средняя школа? Почему так важен какой-то там четырехчасовой тест, если члены приемной комиссии колледжа могли бы просто ознакомиться с оценками, которые вы получали на протяжении четырех лет учебы в старших классах школы?
Ответ на этот вопрос содержится в материале, с которым вы знакомились в главе 1 и 2. Оценки, которые выставляются ученикам в школе, представляют собой несовершенную описательную статистику. Ученик, получающий посредственные оценки при прохождении напряженной школьной программы для специализированных классов по математике и другим естественным наукам, может иметь большие академические способности и потенциал, чем ученик той же школы, предпочевший программу с гуманитарным направлением. Это объясняется тем, что гуманитарные предметы усваиваются, как правило, гораздо легче, и получить высокие оценки по ним не составляет особого труда. Очевидно, что между разными школами также существуют немалые различия, которые сказываются на оценках учеников. Согласно данным College Board (орган, который разрабатывает и управляет SAT), этот тест призван «демократизировать доступ к высшим учебным заведениям для всех учащихся». Что можно возразить против такого довода? Все справедливо! SAT предлагает стандартизированный показатель способностей, который позволяет сравнивать всех абитуриентов, поступающих в колледжи и университеты. Но можно ли считать его достаточно надежным показателем способностей? Если мы хотим показатель, который позволяет легко сравнивать способности учащихся, то мы могли бы также предложить всем выпускникам школы посоревноваться в забеге на 100 ярдов, что было бы гораздо дешевле и проще, чем администрировать SAT. Проблема, конечно же, в том, что результат, показанный в забеге, никоим образом не коррелирован с академической успеваемостью в колледжах и университетах. Данные о результатах забега получить легко, однако они не имеют ничего общего с интересующим нас вопросом.
Чем же SAT лучше в этом отношении? К большому разочарованию будущих поколений старшеклассников, SAT вполне достойно справляется с задачей прогнозирования успехов студентов-первокурсников, так что сдавать его придется. College Board публикует соответствующие показатели корреляции. На шкале от 0 (полное отсутствие корреляции) до 1 (идеальная корреляция) корреляция между средней оценкой ученика старших классов школы и средней оценкой студента-первокурсника равняется 0,56. (Чтобы было понятнее, что это означает, скажу, что корреляция между ростом и весом взрослых мужчин в Соединенных Штатах составляет примерно 0,4.) Корреляция между комплексным результатом, показанным при сдаче SAT (чтение, математика и письмо), и средним баллом студента-первокурсника также 0,56 {25} . Это вроде бы говорит в пользу отказа от SAT, поскольку этот тест способен предсказать академическую успеваемость будущих студентов колледжей и университетов ничуть не лучше, чем средняя оценка ученика старших классов. По сути, самым надежным показателем будет комбинация баллов, полученных при сдаче SAT, и средней оценки ученика старших классов: корреляция между таким сочетанием и средним баллом студента-первокурсника составляет 0,64. Да, это действительно так.
25
College Board, FAQs, http://www.collegeboard.com/prod_downloads/about/news_info/cbsenior/yr2010/correlations-of-predictors-with-first-year-college-grade-point-average.pdf.
Важным моментом в этом обсуждении является то, что корреляция не предполагает причинно-следственной связи: положительная или отрицательная корреляция между двумя переменными вовсе не обязательно означает, что изменения одной переменной вызывают изменения другой. Например, выше я указывал на вероятную положительную корреляцию между суммой баллов, полученных учащимся при сдаче SAT, и количеством телевизоров у него дома. Но это не значит, что родители могут существенно повысить результаты тестов своих детей путем покупки еще пяти телевизоров. Не говорит это, по-видимому, и о том, что сидение перед телевизором благотворно сказывается на академической успеваемости ученика.
Самым логичным объяснением такой корреляции может быть то, что высокообразованные родители могут себе позволить покупку нескольких телевизоров, что, однако, не мешает их детям сдавать экзамены с результатами, превышающими средний балл. Как количество телевизоров, так и экзаменационные оценки, по-видимому, обусловлены некой третьей переменной, коей является уровень образования родителей. Я не могу доказать наличие корреляции между количеством телевизоров в семье и количеством баллов, полученных при сдаче SAT (College Board не публикует соответствующих данных). Но готов доказать, что ученики из состоятельных семей демонстрируют в среднем более высокие результаты сдачи SAT, чем ученики из менее обеспеченных семей. Согласно данным, опубликованным College Board, учащиеся из семей с годовым доходом, превышающим 200 000 долларов, в среднем получают при сдаче математического раздела SAT 586 баллов, тогда как учащиеся из семей с годовым доходом, равным или меньшим 20 000 долларов, в среднем получают при сдаче того же математического раздела SAT лишь 460 баллов {26} . Между тем, вполне вероятно и то, что в домах семей с годовым доходом, превышающим 200 000 долларов, больше телевизоров, чем в домах семей с годовым доходом менее 20 000 долларов.
26
College Board, 2011 College-Bound Seniors Total Group Profile Report, http://research.collegeboard.org/programs/sat/data/archived/cb-seniors-2011.
Я начал писать эту главу несколько дней назад. За это время у меня появилась возможность посмотреть фильм Bhutto. Он действительно замечательный. Полная версия фильма, в которой охватывается период с момента отделения Пакистана от Индии в 1947 году до убийства пакистанского премьер-министра Беназир Бхутто в 2007-м, производит сильное впечатление. Голос Бхутто искусно вплетается в сюжетную линию в форме выступлений и интервью. Как бы то ни было, я пометил эту киноленту пятью звездочками, что вполне соответствует прогнозу Netflix.
В своей деятельности компания Netflix использует концепцию корреляции. Все началось с того, что я выставил оценки ряду фильмов. Netflix сравнила их с рейтингами других кинозрителей, чтобы выявить тех, чьи рейтинги высоко коррелированы с моими. Этим кинозрителям, как правило, нравятся те же фильмы, что и мне. Установив данный факт, Netflix может рекомендовать мне фильмы, которые понравились моим единомышленникам и которых я еще не видел.
Это, так сказать, «картина в целом». Фактическая методология гораздо сложнее. Вообще говоря, в 2006 году Netflix инициировала конкурс, в рамках которого обычным гражданам было предложено разработать механизм, который бы повысил эффективность уже существующих рекомендаций Netflix по меньшей мере на 10 % (это означает, что данная система стала бы на 10 % точнее при прогнозировании того, как бы кинозритель оценил тот или иной фильм после просмотра). Победителю был обещан 1 миллион долларов.
Каждый человек или группа людей, зарегистрировавшихся для участия в конкурсе, получал «обучающие данные», состоящие из более чем 100 миллионов рейтингов, выставленных 18 000 фильмам клиентами Netflix (их общее количество составляло 480 000 человек). Отдельная совокупность из 2,8 миллиона рейтингов не разглашалась (то есть Netflix знала, как кинозрители оценили эти фильмы, но участникам конкурса такая информация не предоставлялась). Конкурсантов оценивали по тому, насколько успешно предложенные ими алгоритмы прогнозировали фактические оценки, выставленные зрителями этих «неразглашенных» фильмов. Спустя три года тысячи команд из более чем 180 стран представили на суд жюри свои предложения. К участникам конкурса предъявлялось два требования. Во-первых, победитель должен был уступить Netflix права на свой алгоритм. И во-вторых, он должен был «объяснить миру, как ему удалось решить эту задачу и каким образом она работает» {27} .
27
См. http://www.netflixprize.com/rules.
В 2009 году Netflix объявила победителя. Им стала группа из семи человек, в состав которой входили статистики и программисты из США, Австрии, Канады и Израиля. Увы, я не могу описать здесь – даже в приложении – систему-победителя. Объяснение принципа ее действия занимает 92 страницы. Качество рекомендаций Netflix произвело на меня неизгладимое впечатление. Тем не менее система Netflix – просто супернавороченная вариация того, чем занимаются люди с момента появления кинематографа: найти кого-либо со схожими вкусами и попросить порекомендовать вам тот или иной фильм. Вам, как правило, нравятся те же фильмы, что и мне, и не нравятся те же фильмы, что и мне. Так что вы думаете о новом фильме Джорджа Клуни?