Чтение онлайн

на главную

Жанры

Тестовый контроль в образовании

Ефремова Надежда

Шрифт:

Наиболее известна корреляция Пирсона. При вычислении корреляции Пирсона предполагается, что переменные измерены, как минимум, в интервальной шкале. Некоторые другие коэффициенты корреляции могут быть вычислены для менее информативных шкал (порядковых). Коэффициенты корреляции, как правило, изменяются в пределах от–1,00 до +1,00. Значение–1,00 показ ы вает, что переменные имеют строгую отрицательную корреляцию. Значение +1,00 свидетельствует, что переменные имеют строгую положительную корреляцию, а значение 0,00 соответствует отсутствию корреляции.

Наиболее часто используемый коэффициент корреляции Пирсона r называется также линейной корреляцией и измеряет степень линейных связей между переменными. Корреляция Пирсона (далее – корреляция) определяет степень, с которой значения двух переменных пропорциональны друг другу, значение коэффициента корреляции не зависит от масштаба измерения. Например, корреляция между ростом и весом будет одной и той же, независимо от того, проводились

измерения в дюймах и фунтах или в сантиметрах и килограммах. Корреляция высокая, если на графике зависимость можно представить прямой линией с положительным или отрицательным углом наклона. Такая прямая называется прямой регрессии, или прямой, построенной методом наименьших квадратов. Последний термин связан с тем, что сумма квадратов расстояний (вычисленных по оси Y) от наблюдаемых точек до прямой является минимальной. Заметим, что использование квадратов расстояний приводит к тому, что оценки параметров прямой сильно реагируют на выбросы.

Коэффициент корреляции Пирсона (r) представляет собой меру линейной зависимости двух переменных x и y :

где Sx , Sy – стандартные отклонения переменных.

Если возвести его в квадрат, то полученное значение коэффициента детерминации r2 представляет долю вариации, общую для двух переменных, или степень зависимости (связанности этих переменных). Чтобы оценить зависимость между переменными, нужно знать как величину корреляции, так и ее значимость. Уровень значимости, вычисленный для каждой корреляции, зависит от объема выборок и представляет собой главный источник информации о надежности корреляции. Критерий значимости основывается на предположении о том, что распределение отклонений наблюдений от регрессионной прямой для зависимой переменной Y является нормальным с постоянной дисперсией для всех значений независимой переменной X. По определению, выбросы являются нетипичными, резко выделяющимися наблюдениями. Так как при построении прямой регрессии используется сумма квадратов расстояний наблюдаемых точек до прямой, то выбросы могут существенно повлиять на наклон прямой и, следовательно, на значение коэффициента корреляции. Поэтому единичный выброс (значение которого возводится в квадрат) способен существенно изменить наклон прямой и, следовательно, значение корреляции. Если размер выборки относительно мал, то добавление или исключение некоторых данных способно оказать существенное влияние на прямую регресии и коэффициент корреляции. Выбросы могут не только искусственно увеличить значение коэффициента корреляции, но и реально уменьшить существующую корреляцию. Считается, что выбросы представляют собой случайную ошибку, которую следует контролировать. Чтобы не быть введенными в заблуждение полученными значениями, необходимо проверить на диаграмме рассеяния каждый важный случай значимой корреляции.

Другим возможным источником трудностей, связанным с линейной корреляцией Пирсона r, является форма зависимости. Корреляция Пирсона r хорошо подходит для описания линейной зависимости. Отклонения от линейности увеличивают общую сумму квадратов расстояний от регрессионной прямой, даже если она представляет истинные и очень тесные связи между переменными. Если кривая монотонна (монотонно возрастает или, напротив, монотонно убывает), то можно преобразовать одну или обе переменные, чтобы сделать зависимость линейной, а затем уже вынислить корреляцию между преобразованными величинами.

Иногда исследователи применяют численные методы удаления выбросов. К сожалению, в общем случае определение выбросов субъективно, и решение должно приниматься индивидуально в каждом эксперименте с учетом его особенностей или сложившейся практики в данной области. Во многих случаях первый шаг анализа состоит в вычислении корреляционной матрицы всех переменных и проверке значимых (ожидаемых и неожиданных) корреляций. После того как это сделано, следует понять общую природу обнаруженной статистической значимости и понять, почему одни коэффициенты корреляции значимы, а другие нет. Однако следует иметь в виду, если используется несколько критериев, значимые результаты могут появляться часто, и это будет происходить чисто случайным образом. Например, коэффициент, значимый на уровне 0,05, будет встречаться чисто случайно один раз в каждом из 20 подвергнутых исследованию коэффициентов. Поэтому следует подходить с осторожностью ко всем непредсказанным или заранее не запланированным результатам и погштаться соотнести их с другими (надежными) результатами. В конечном счете самый убедительный способ проверки состоит в проведении повторного экспериментального исследования. Такое положение является общим для всех методов анализа, использующих множественные сравнения и статистическую значимость.

Следует иметь в виду, что коэффициенты корреляции не являются аддитивными: усредненный коэффициент корреляции, вычисленный по нескольким выборкам, не совпадает со средней корреляцией во всех этих выборках. Причина в том, что коэффициент корреляции не является линейной функцией величины зависимости между переменными. Коэффициенты корреляции не могут быть просто усреднены. Для получения среднего коэффициента корреляции следует преобразовать коэффициенты корреляции каждой выборки в такую меру зависимости, которая будет аддитивной. Например, до того как усреднить коэффициенты корреляции, их можно возвести в квадрат, получить коэффициенты детерминации, которые уже будут аддитивными. Если необходимо выявить различия средних в нескольких исследуемых группах, то подходящим является однофакторный дисперсионный анализ, дающий различие дисперсий. Дисперсионный анализ – это статистический метод изучения влияния отдельных переменных на изменчивость измеряемой (исследуемой) переменной.

Апостериорные сравнения средних после получения статистически значимого результата в дисперсионном анализе позволяют узнать, какие средние вызвали наблюдаемый эффект. Процедуры апостериорного сравнения специально рассчитаны так, чтобы учитывать более двух выборок. Группировку с дискриминант–ным анализом можно рассматривать как первый шаг к другому типу анализа – дискриминативному, который исследует различия между группами с помощью значений независимой переменной. Именно, в дискриминантном анализе находят такие линейные комбинации зависимых переменных, которые наилучшим образом определяют принадлежность наблюдения к определенному классу, причем число классов задается заранее.

Дискриминантный анализ используется для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы). Например, некий исследователь в области образования может захотеть исследовать, какие переменные относят выпускника средней школы к одной из трех категорий: 1) поступающий в колледж; 2) поступающий в профессиональную школу; 3) отказывающийся от дальнейшего образования или профессиональной подготовки. Для этой цели исследователь может собрать данные о различных переменных, связанных с учащимися школы. После выпуска большинство учащихся, естественно, должны попасть в одну из названных категорий. Затем можно использовать дискриминантный анализ для определения того, какие переменные дают наилучшее предсказание выбора учащимися дальнейшего пути. Например, предположим, что имеются две совокупности выпускников средней школы – те, кто выбрал поступление в колледж, и те, кто не собирается это делать. Если средние для двух совокупностей (тех, кто в настоящее время собирается продолжить образование, и тех, кто отказывается) различны, то это позволяет разделить учащихся на тех, кто собирается и кто не собирается поступать в колледж (и эта информация может быть использована членами школьного совета для подходящего руководства соответствующими учащимися).

Дисперсионный анализ, в частности, позволяет выявить, являются ли две или более совокупности значимо отличающимися одна от другой по среднему значению какой–либо конкретной переменной. Для изучения вопроса о том, как можно проверить статистическую значимость отличия в среднем между различными совокупностями, должно быть ясно, что если среднее значение определенной переменной значимо различно для двух совокупностей, то переменная их разделяет.

При применении дискриминантного и дисперсионного анализа обычно имеются несколько переменных, и задача состоит в том, чтобы установить, какие из них вносят существенный вклад в дискриминацию между совокупностями. Если анализируется влияние нескольких переменных, то проводится пошаговый факторный анализ. В пошаговом анализе модель дискриминации (дискриминантных функций) строится по шагам. Точнее, на каждом шаге просматриваются все переменные и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, а далее осуществляется переход к следующему шагу. В общем, получается линейное уравнение типа:

Группа = a + b 1 x 1 + b 2 x 2 + … + b m x m ,

где a – константа, и b1, ..., bm – коэффициенты регрессии. Интерпретация результатов задачи с двумя совокупностями следует логике применения множественной регрессии: переменные с наибольшими регрессионными коэффициентами вносят наибольший вклад в дискриминацию.

Поделиться:
Популярные книги

Сумеречный Стрелок 2

Карелин Сергей Витальевич
2. Сумеречный стрелок
Фантастика:
городское фэнтези
попаданцы
аниме
5.00
рейтинг книги
Сумеречный Стрелок 2

Не грози Дубровскому! Том Х

Панарин Антон
10. РОС: Не грози Дубровскому!
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Не грози Дубровскому! Том Х

Измена. Верну тебя, жена

Дали Мила
2. Измены
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Измена. Верну тебя, жена

Волк 2: Лихие 90-е

Киров Никита
2. Волков
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Волк 2: Лихие 90-е

Крестоносец

Ланцов Михаил Алексеевич
7. Помещик
Фантастика:
героическая фантастика
попаданцы
альтернативная история
5.00
рейтинг книги
Крестоносец

Законы Рода. Том 4

Flow Ascold
4. Граф Берестьев
Фантастика:
юмористическое фэнтези
аниме
5.00
рейтинг книги
Законы Рода. Том 4

Ученик. Книга третья

Первухин Андрей Евгеньевич
3. Ученик
Фантастика:
фэнтези
7.64
рейтинг книги
Ученик. Книга третья

Менталист. Эмансипация

Еслер Андрей
1. Выиграть у времени
Фантастика:
альтернативная история
7.52
рейтинг книги
Менталист. Эмансипация

Не грози Дубровскому! Том VIII

Панарин Антон
8. РОС: Не грози Дубровскому!
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Не грози Дубровскому! Том VIII

Столичный доктор. Том III

Вязовский Алексей
3. Столичный доктор
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Столичный доктор. Том III

Тринадцатый IV

NikL
4. Видящий смерть
Фантастика:
боевая фантастика
попаданцы
5.00
рейтинг книги
Тринадцатый IV

Возвышение Меркурия. Книга 3

Кронос Александр
3. Меркурий
Фантастика:
попаданцы
аниме
5.00
рейтинг книги
Возвышение Меркурия. Книга 3

Поход

Валериев Игорь
4. Ермак
Фантастика:
боевая фантастика
альтернативная история
6.25
рейтинг книги
Поход

Темный Патриарх Светлого Рода 4

Лисицин Евгений
4. Темный Патриарх Светлого Рода
Фантастика:
фэнтези
юмористическое фэнтези
аниме
5.00
рейтинг книги
Темный Патриарх Светлого Рода 4