Чтение онлайн

на главную - закладки

Жанры

Том13. Абсолютная точность и другие иллюзии. Секреты статистики
Шрифт:

Разность между каждым значением и средним арифметическим 4,6. Дисперсия — среднее значение квадратов этих разностей.

Этот показатель называется дисперсией. Он позволяет оценить разброс значений, а также лежит в основе многих статистических методов. Дисперсия обозначается 2. Недостаток дисперсии заключается в том, что ее единица измерения — это единица измерения исходных данных, возведенная в квадрат. Если исходная выборка состоит из значений длины в метрах, единицей измерения дисперсии будет квадратный метр, что несколько усложнит интерпретацию.

Решение этой проблемы очень простое: нужно всего лишь извлечь из дисперсии квадратный корень.

Полученное значение, которое мы будем обозначать , называется среднеквадратическим отклонением и является самым распространенным показателем вариации. Обобщение большой выборки данных очень часто производится с помощью всего двух показателей: среднеквадратического отклонения и среднего арифметического.

* * *

НЕМНОГО ФОРМУЛ

Общая формула расчета дисперсии такова:

где xi — значения элементов выборки,  — среднее арифметическое, — число элементов выборки. Формула расчета среднеквадратического отклонения такова:

* * *

Коэффициент вариации

Какая величина варьируется больше — вес котов или вес коров? Допустим, что средний вес кота равен 4 кг и в 95 % случаев он лежит в интервале от 3 до 5 кг. Предположим, что вес коровы в 95 % случаев лежит в интервале от 480 до 500 кг. Если мы изучим вес котов, то увидим, что он варьируется очень сильно (некоторые коты весят почти в два раза больше других), а вес коров различается несущественно.

Среднеквадратическое отклонение веса котов будет находиться в пределах 0,5 кг. В соответствии с закономерностью вариации весов, 95 % выборки отстоит от среднего значения не более чем на два среднеквадратических отклонения. Об этом будет рассказано в следующей главе, посвященной нормальному распределению. Среднеквадратическое отклонение веса коров будет лежать в пределах 5 кг, что в 10 раз больше, однако вес коров варьируется меньше.

Чтобы разрешить этот парадокс, возникающий при сравнении вариаций, вводится коэффициент вариации, который равен частному среднеквадратического отклонения и среднего значения:

В нашем примере коэффициент вариации для веса котов равен 0,125, для веса коров — 0,01. Коэффициент вариации — безразмерная величина.

* * *

ДВЕ КЛАВИШИ ДЛЯ РАСЧЕТА СРЕДНЕКВАДРАТИЧЕСКОГО ОТКЛОНЕНИЯ

Несмотря на то что дисперсия и среднеквадратическое отклонение — важнейшие показатели статистики, их часто пытаются скрыть. При попытке обобщить большую выборку данных мы можем столкнуться с одной из следующих ситуаций.

1. Интерес представляют имеющиеся данные. Мы хотим определить среднее значение или среднеквадратическое отклонение этих данных, составляющих так называемую генеральную совокупность.

2. Имеющиеся данные являются выборкой из изучаемой генеральной совокупности. Иными словами, интерес представляет не столько среднее значение или среднеквадратическое отклонение, сколько оценка (некое представление) значений генеральной совокупности.

Расчет среднего значения в обоих случаях будет одинаков. Формула не изменится, так как наилучшей оценкой среднего значения генеральной совокупности является среднее значение выборки. Если мы хотим сделать какие-то выводы о генеральной совокупности на основании выборки, необходимо, чтобы выборка была репрезентативной.

При расчете дисперсии ситуация выглядит несколько иначе. Если дана генеральная совокупность, то нужно использовать формулу, указанную выше. Если же дана выборка, а мы хотим оценить дисперсию генеральной совокупности, используется следующая формула:

Почему?

Дело в том, что при работе с выборками вариация рассчитывается с использованием среднего значения по выборке, а не среднего значения генеральной совокупности, которое мы хотим найти. Можно сказать, что среднее значение выборки подстраивается под данные выборки, что ведет к недооценке вариации генеральной совокупности. При делении на (– 1) результат будет чуть больше, и он будет точнее описывать дисперсию генеральной совокупности. При делении на 4 или на 3 разница окажется большой, но при делении на 100 или на 99 разница будет невелика. На практике для больших объемов выборки подобные расхождения не влияют на результат.

Если эта тема кажется вам сложной и вы что-то не понимаете, не волнуйтесь. Если при решении задачи вам придется выбирать между двумя формулами, считайте, что речь идет о выборке. В этом случае нужно делить на (n — 1). Если вы используете статистическую программу, где нет возможности выбора из двух формул, знайте: в программе используется формула для выборки.

х среднее арифметическое.

n — среднеквадратическое отклонение в случае, когда расчет выполняется для всей генеральной совокупности и интерес представляет среднеквадратическое отклонение «всех» данных.

n-1  — среднеквадратическое отклонение в случае, когда расчет выполняется для выборки и стоит задача оценить среднеквадратическое отклонение всей генеральной совокупности, из которой взята выборка.

Статистические функции на калькуляторе: одна клавиша используется для расчета среднего арифметического, две клавиши — для вычисления среднеквадратического отклонения.

* * *

Резюмируем данные (3): квантили

Некоторые показатели используются часто, но они не характеризуют центр распределения и вариацию. С их помощью «проводят границы» на области данных и получают некие эталонные значения, с которыми можно сравнить все остальные.

Квартили

Если упорядочить данные по возрастанию, медиана разделит множество данных пополам. Первым квартилем называется медиана первой половины; 25 % значений будут меньше него, 75 % — больше. Медиана второй половины называется третьим квартилем, 75 % значений меньше него, 25 % — больше.

Допустим, что первый квартиль зарплаты в вашей компании равен 1000 евро, медиана — 1300 евро, третий квартиль — 2000 евро. Если вы получаете 800 евро, то находитесь среди 25 % тех, кто получает меньше всего. Если ваша зарплата равна 1500 евро, вы входите в 50 % сотрудников, получающих больше остальных, но минимум 25 % зарабатывают больше вас. Если ваша зарплата равна 2100 евро, вы входите в 25 % наиболее высокооплачиваемых сотрудников компании.

Перцентили

15-я перцентиль — это значение, меньше которого ровно 15 % упорядоченного множества данных. Очевидно, что 85 % значений будут больше него. Если ваша зарплата равна 70-й перцентили, это означает, что зарплата 70 % сотрудников меньше вашей, или, что аналогично, 30 % получают больше вас — если вы из тех, для кого стакан всегда наполовину пуст. Перцентили также используются при оценке результатов тестов на интеллект. Если вы находитесь в 90-й перцентили, это означает, что 90 % участников справились с тестом хуже, чем вы.

Поделиться:
Популярные книги

Треск штанов

Ланцов Михаил Алексеевич
6. Сын Петра
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Треск штанов

Низший - Инфериор. Компиляция. Книги 1-19

Михайлов Дем Алексеевич
Фантастика 2023. Компиляция
Фантастика:
боевая фантастика
5.00
рейтинг книги
Низший - Инфериор. Компиляция. Книги 1-19

Купеческая дочь замуж не желает

Шах Ольга
Фантастика:
фэнтези
6.89
рейтинг книги
Купеческая дочь замуж не желает

Враг из прошлого тысячелетия

Еслер Андрей
4. Соприкосновение миров
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Враг из прошлого тысячелетия

Фиктивная жена

Шагаева Наталья
1. Братья Вертинские
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Фиктивная жена

Темный Охотник

Розальев Андрей
1. КО: Темный охотник
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Темный Охотник

Мастер Разума III

Кронос Александр
3. Мастер Разума
Фантастика:
героическая фантастика
попаданцы
аниме
5.25
рейтинг книги
Мастер Разума III

Отборная бабушка

Мягкова Нинель
Фантастика:
фэнтези
юмористическая фантастика
7.74
рейтинг книги
Отборная бабушка

Кодекс Охотника. Книга X

Винокуров Юрий
10. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
6.25
рейтинг книги
Кодекс Охотника. Книга X

Сумеречный Стрелок 2

Карелин Сергей Витальевич
2. Сумеречный стрелок
Фантастика:
городское фэнтези
попаданцы
аниме
5.00
рейтинг книги
Сумеречный Стрелок 2

Купидон с топором

Юнина Наталья
Любовные романы:
современные любовные романы
7.67
рейтинг книги
Купидон с топором

Отмороженный 4.0

Гарцевич Евгений Александрович
4. Отмороженный
Фантастика:
боевая фантастика
постапокалипсис
рпг
5.00
рейтинг книги
Отмороженный 4.0

Черный Маг Императора 5

Герда Александр
5. Черный маг императора
Фантастика:
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Черный Маг Императора 5

На границе тучи ходят хмуро...

Кулаков Алексей Иванович
1. Александр Агренев
Фантастика:
альтернативная история
9.28
рейтинг книги
На границе тучи ходят хмуро...