Чтение онлайн

на главную

Жанры

Введение в логику и научный метод
Шрифт:

2, 3, 6. У нас может возникнуть желание высчитать среднее арифметическое этих чисел. Однако это бесполезно, поскольку сумма отклонений от среднего значения всегда равна нулю. Однако мы можем пренебречь отрицательными знаками в отклонениях и высчитать среднее арифметическое. Полученный результат будет называться средним отклонением, или средней ошибкой. Среднее отклонение в нашем случае равняется 24/10, или 2,4.

Среднее отклонение приписывает одинаковую значимость как большим, так и малым отклонениям. Вообще, чем меньше среднее отклонение, тем более сконцентрированы исследуемые предметы вокруг среднего значения. Все факторы, упоминавшиеся при обсуждении среднего арифметического, также релевантны и в случае со средним отклонением.

Однако нам следует обратить внимание на то, что большое среднее отклонение не является необходимым признаком большой флуктуации в значениях группы. Быть большим можно только относительно некоторого стандарта. Если мы многократно

измерим высоту горы, то среднее арифметическое наших измерений может равняться 5000 футов, а среднее отклонение – 10 футам. По сравнению со средним арифметическим среднее отклонение является маленьким числом. Однако если бы мы измеряли длину квартала в городе, то среднее отклонение в 10 футов было бы существенным. По этой причине среднее отклонение иногда делится на средний показатель, относительно которого измеряются отклонения. Получившийся результат называется «коэффициент дисперсии». В предыдущем примере об измерении роста людей этот коэффициент равнялся 2,4/66, или 0,036+.

Стандартное отклонение

Для многих целей, особенно тех, в которых преобладают элементы теории вероятности, в качестве меры дисперсии рассматривается стандартное отклонение. Оно вычисляется путем деления суммы квадратов отклонений от среднего показателя на количество предметов в группе и извлечения из получившегося результата квадратного корня. В примере с измерением роста мы получаем

что равняется 9 и является средним арифметическим суммы квадратов отклонений. Стандартное отклонение равняется

, или 3. Если x1, х2, хn являются отклонениями от среднего арифметического из n значений, то х, т. е. стандартное отклонение, равно

Стандартное отклонение, построенное указанным образом, демонстрирует экстремальные значения отклонений. При возведении отклонений в квадрат наибольшие из них обретают больший вес в общей сумме по сравнению с меньшими отклонениями. Относительно полезности стандартного отклонения нельзя сказать ничего до тех пор, пока не станут известными предположения, сделанные относительно группы значений, для которых оно высчитывается. Однако в целом стандартное отклонение является измерением дисперсии, которое в наименьшей степени подвержено влиянию флуктуаций в выборке по сравнению с другими измерениями. Если распределение в группе является примерно симметричным и если расстояние, равное стандартному отклонению, отграничено с каждой стороны среднего показателя, то около 2/3 всех предметов группы будут находиться внутри отграниченной области. В нашем примере с измерением роста эти отграничения выражаются записью: 66 ± 3. И действительно, около 2/3 величин находится между 63 и 69. Квартильное отклонение

Еще один способ измерения отклонения можно получить в результате расстановки предметов по мере их увеличения и отыскания тех трех значений (item), которые делят общую последовательность на четыре равные части. Эти значения называются «первый квартиль», «второй квартиль» (или медиана) и «третий квартиль». Если Q1 – это первый квартиль, a Q3 – третий, то квартильное отклонение определяется как (Q3 – Q1) / 2. Очевидно, что половина значений группы должна лежать между первым и третьим квартилями. По этой причине квартильное отклонение иногда также называется «вероятностной ошибкой». Если мы используем запись 65,5 ± 2 (где 65,5 является термином, находящимся посередине между первым и третьим квартилем, а 2 – квартальным отклонением), то внутри указанных границ (63,5 и 67,5) будет столько же значений, сколько и снаружи. Иными словами, предполагается, что когда мы произвольно выбираем какие-либо значения группы, то вероятность того, что мы выберем значение, находящееся внутри указанных границ, равна вероятности того, что мы выберем значение за их пределами. Однако выбор термина «вероятностная ошибка» здесь не вполне удачен и сбивает с толку, т. к. в литературе по данной теме этим термином принято обозначать и другие вещи.

§ 4. Измерение корреляции

Целью всех научных исследований является отыскание значимых отношений внутри изучаемой предметной области. Цель же статистических исследований заключается в том, чтобы облегчить процесс данного открытия и дать возможность выразить отношения между различными группами признаков. Мы собираем статистические данные относительно вопросов, связанных с жизнью, для того чтобы сравнивать такие вещи, как рождаемость, смертность, бедность и т. д., за два различных года. Мы собираем данные о числе несчастных случаев и количестве часов нахождения на рабочем

месте на нескольких промышленных предприятиях для того, чтобы установить отношение (если таковое имеется) между этими двумя наборами явлений. Это делается для того, чтобы установить, связаны ли эти обстоятельства причинно-следственной связью или же являются частично или полностью независимыми друг от друга.

Мы уже рассмотрели средние показатели и меры дисперсии, которые обусловливают возможность более или менее точного сравнения групп. Для многих целей рассмотренные статистические числа – это все, что нам нужно. Так, мы можем сравнить доход некоторой общины на протяжении различных лет, используя один из средних показателей и измерения разброса. Иногда становятся полезными процентные отношения. Росла ли численность населения Германии быстрее, чем численность населения Франции между 1900-м и 1910 г.? Увеличение численности населения в процентах в большинстве случаев будет служить мерой такого роста. Существует ли отношение между орлиной формой носа и еврейским происхождением? Недвусмысленный ответ на этот вопрос был получен из данных, согласно которым в достаточно представительных выборках евреев лишь 14 % обладало «характерным еврейским носом».

Однако бывают ситуации, когда никакой из рассмотренных статистических методов не является удовлетворительным. Предположим, мы исследовали несколько сотен листьев с деревьев на предмет соответствия их длины и ширины. Существует ли связь между длиной и шириной листа? На основании наших общих впечатлений мы можем сформировать убеждение о том, что чем длиннее лист, тем он и шире. Однако когда нам приходится рассмотреть множество листьев, то мы уже не можем опираться на поверхностные впечатления, поскольку мы не можем ни запомнить все рассмотренные листы, ни установить между ними значимые отношения. В таком случае мы можем попробовать разложить листья в порядке увеличения их длины, для того чтобы посмотреть, увеличивается ли при этом их ширина. Если две последовательности совпадают, то мы, без сомнения, сможем заключить, что существует определенное отношение между длиной и шириной листа. Если две последовательности совпадают не полностью, а лишь частично, то мы все равно можем подозревать наличие некоторого отношения. Однако нам потребуется некоторая численная мера для соотнесения длин и ширин листьев. Считается, что переменные являются коррелированными, если в последовательности соответствующих примеров этих переменных увеличению или уменьшению в значениях одной из них сопутствует увеличение или уменьшение в значениях другой, будь то в едином направлении или в разных направлениях. Когда значения переменных изменяются в одном направлении (вместе увеличиваются или вместе уменьшаются), корреляция является положительной; когда значения переменных изменяются в противоположных направлениях (одни увеличиваются, а другие уменьшаются), то корреляция является отрицательной.

Существует несколько видов измерения корреляции. Мы рассмотрим только один такой вид, называемый коэффициентом Пирсона. Однако мы не будем рассматривать способ получения этого коэффициента, в силу того что используемый для этих целей аргумент является техническим. Мы просто приведем его определение и продемонстрируем, как он используется. Пусть h1, h2… hn будут значениями переменной h, a w1, w2… wn будут соответствующими значениями переменной w. Это означает, что когда h стоит в значении hlf w стоит в значении и т. д. Далее пусть х1, х2… хn представляют отклонения значений первой переменной от среднего арифметического в n примерах, а у1, у2…уn представляют соответствующие отклонения значений второй переменной. Символы х и y будут, как обычно, представлять стандартное отклонение для двух последовательностей. В таком случае коэффициент Пирсона будет обозначаться как

где (ху) обозначает сумму всех произведений соответствующих отклонений, и данная формула читается так: среднее арифметическое произведений отклонений, деленное на произведение двух стандартных отклонений.

Высчитаем данный коэффициент для определения меры корреляции между возрастами мужей и жен в группе из двадцати пар. Таблица на с. 429 представляет необходимую информацию. Следовательно,

Коэффициент Пирсона построен таким образом, что его численное значение положительно, когда корреляция положительна, и отрицательно, когда корреляция отрицательна. Более того, его значение всегда лежит между +1 и -1, где «+ 1» обозначает прямолинейную положительную корреляцию, а «-1» – прямолинейную отрицательную корреляцию. Коэффициент 0 указывает на отсутствие корреляции; в таком случае на основании имеющегося знания о том, как происходят изменения значений одной переменной, мы не можем ничего вывести о том, как происходят изменения значений второй переменной.

Поделиться:
Популярные книги

Поступь Империи

Ланцов Михаил Алексеевич
7. Сын Петра
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Поступь Империи

Мастер Разума

Кронос Александр
1. Мастер Разума
Фантастика:
героическая фантастика
попаданцы
аниме
6.20
рейтинг книги
Мастер Разума

Сиротка 4

Первухин Андрей Евгеньевич
4. Сиротка
Фантастика:
фэнтези
попаданцы
6.00
рейтинг книги
Сиротка 4

Провинциал. Книга 7

Лопарев Игорь Викторович
7. Провинциал
Фантастика:
боевая фантастика
космическая фантастика
5.00
рейтинг книги
Провинциал. Книга 7

Ненаглядная жена его светлости

Зика Натаэль
Любовные романы:
любовно-фантастические романы
6.23
рейтинг книги
Ненаглядная жена его светлости

Книга пяти колец

Зайцев Константин
1. Книга пяти колец
Фантастика:
фэнтези
6.00
рейтинг книги
Книга пяти колец

Ваше Сиятельство

Моури Эрли
1. Ваше Сиятельство
Фантастика:
фэнтези
попаданцы
5.00
рейтинг книги
Ваше Сиятельство

Болотник 3

Панченко Андрей Алексеевич
3. Болотник
Фантастика:
попаданцы
альтернативная история
6.25
рейтинг книги
Болотник 3

Темный Охотник 3

Розальев Андрей
3. КО: Темный охотник
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Темный Охотник 3

Семья. Измена. Развод

Высоцкая Мария Николаевна
2. Измены
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Семья. Измена. Развод

Восход. Солнцев. Книга X

Скабер Артемий
10. Голос Бога
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Восход. Солнцев. Книга X

По осколкам твоего сердца

Джейн Анна
2. Хулиган и новенькая
Любовные романы:
современные любовные романы
5.56
рейтинг книги
По осколкам твоего сердца

Барон диктует правила

Ренгач Евгений
4. Закон сильного
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Барон диктует правила

Неудержимый. Книга XII

Боярский Андрей
12. Неудержимый
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Неудержимый. Книга XII