Тестовый контроль в образовании, Ефремова Надежда

Тестовый контроль в образовании

на обложку

Ефремова Надежда

Шрифт:

Независимо от типа две или более переменные связаны (зависимы) между собой, если наблюдаемые значения этих переменных распределены согласованным образом. Другими словами, переменные зависимы, если их значения согласованы друг с другом в имеющихся наблюдениях. Например, рост связан с весом, обычно высокие индивиды тяжелее низких; IQ (коэффициент интеллекта) связан с количеством ошибок в тесте, а люди с высоким значением IQ делают меньше ошибок и т.д.

Конечная цель всякого исследования или научного анализа состоит в нахождении связей (зависимостей) между переменными в терминах их количественных или качественных зависимостей, корреляций. Можно отметить два самых простых свойства зависимости между переменными: величину зависимости и надежность зависимости.

Величину зависимости понять и измерить легче, чем надежность. Надежность –

менее наглядное понятие, однако оно чрезвычайно важно, так как связано с репрезентативностью выборки, на основе которой строятся выводы. Другими словами, надежность говорит нам о том, насколько вероятно, что зависимость, подобная найденной, будет вновь обнаружена на данных другой выборки, извлеченной из той же самой генеральной выборки (всей совокупности исследуемых объектов). Надежность найденных зависимостей между переменными конкретной выборки можно количественно оценить и представить с помощью стандартной статистической меры (называемой p-уровнем или статистическим уровнем значимости).

Статистическая значимость результата представляет собой меру уверенности в его истинности (в смысле репрезентативности выборки), p-уровень (термин введен K.A. Brownlee, 1960) – это показатель, находящийся в убывающей зависимости от надежности результата [233]. Более высокий p – уровень соответствует более низкой зависимости между переменными, найденной в выборке. Именно p – уровень представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на генеральную выборку. Например, p –уровень, равный 0,05 (т.е. 1/20), показывает, что имеется 5% вероятности того, что найденная в выборке связь между переменными является случайной. Иными словами, если данная зависимость в генеральной выборке отсутствует, то примерно в одном из двадцати повторений эксперимента можно ожидать появления такой же или более сильной зависимости между переменными. Если между переменными генеральной выборки существует такая зависимость, то вероятность повторения результатов исследования, показывающих наличие этой зависимости, называется статистической мощностью плана. В большинстве исследований p – уровень, равный 0,05 (или 5%), рассматривается как приемлемая граница ошибки измерения.

Выбор определенного уровня значимости, выше которого результаты отвергаются как ложные, является достаточно произвольным. На практике окончательное решение обычно зависит от того, был ли результат предсказан априори (т.е. до проведения опыта) или обнаружен апостериорно в результате многих анализов и сравнений множества данных. Результаты, значимые на уровне p = 0,01, обычно рассматриваются как статистически значимые, а результаты с уровнем p = 0,005 или p = 0,001 – как высокозначимые. Однако следует понимать, что данная классификация уровней значимости достаточно произвольна и является всего лишь неформальным соглашением, принятым на основе практического опыта в той или иной области исследований.

Понятно, что чем больше видов анализов проводится с совокупностью данных, тем большее число значимых (на выбранном уровне) результатов будет обнаружено чисто случайно. Например, если имеет место корреляция между 10 переменными из 45, то можно ожидать, что примерно два коэффициента корреляции (один на каждые 20) чисто случайно окажутся значимыми на уровне p= 0,05. Тем не менее многие статистические методы (особенно простые методы разведочного анализа данных) не предлагают какого–либо способа решения данной проблемы. Поэтому исследователь должен с осторожностью оценивать надежность неожиданных результатов: чем больше величина зависимости (связи) между переменными в выборке обычного объема, тем более она надежна.

Если предполагать отсутствие зависимости между соответствующими переменными в генеральной выборке, то наиболее вероятно ожидать, что в исследуемой выборке связь между этими переменными также будет отсутствовать. Таким образом, чем более сильная зависимость обнаружена в исследуемой выборке, тем менее вероятно, что этой зависимости нет в генеральной, из которой она извлечена. Таким образом, величина зависимости и ее значимость тесно связаны между собой. Однако указанная связь между зависимостью и значимостью имеет место только для данного объема выборки, поскольку при различных объемах выборки одна и та же зависимость может оказаться как высокозначимой, так и не значимой вовсе.

Если наблюдений мало, то, соответственно, имеется мало возможных комбинаций значений переменных, и, таким образом, вероятность случайного обнаружения комбинации значений, показьгаающигх сильную зависимость, относительно велика. Рассмотрим следующий пример. Если исследуется зависимость двух переменных и имеется только 4 субъекта в выборке, то вероятность того, что чисто случайно будет найдена 100%-ная зависимость между двумя переменными, равна 1/8. Если рассмотреть вероятность подобного совпадения для 100 субъектов, то легко видеть, что эта вероятность равна практически нулю. Очевидно, чем меньше объем выборки в каждом эксперименте, тем более вероятно появление ложных результатов, когда такая зависимость на самом деле отсутствует.

Если зависимость между переменными почти отсутствует, объем выборки, необходимый для значимого обнаружения зависимости, предполагается бесконечным. Статистическая значимость представляет вероятность того, что подобный результат получен при проверке всей генеральной, бесконечно большой выборки.

Статистиками разработано много различных мер взаимосвязи между переменными. Выбор определенной меры в конкретном исследовании зависит от числа переменных, используемых шкал измерения, природы зависимости и т.д. Большинство таких мер между переменными подчиняется общему принципу статистической значимости: оценивание наблюдаемой зависимости с помощью сравнения ее с максимально мыслимой зависимостью – критерием. Значение статистических критериев состоит в оценивании зависимости между переменными. Однако, чтобы определить уровень статистической значимости, нужна функция, которая представляла бы зависимость между «величиной» и «значимостью» зависимости между переменными для каждого объема выборки. Большинство функций имеет характер нормального распределения (рис. 40), представляющего собой одну из эмпирически проверенных истин общей природы статистически значимого числа объектов и один из фундаментальных законов природы. Форма нормального распределения – характерная колоколообразная кривая – определяется двумя параметрами: средним и стандартным отклонением. Более точную информацию о форме распределения можно получить с помощью критериев нормальности. Однако ни один из критериев не может заменить визуальную проверку нормальности с помощью гистограммы (частоты попаданий значений переменной в отдельные интервалы).

Гистограмма позволяет качественно и наглядно оценить различные характеристики распределения, на нее может накладываться кривая нормального распределения. Например, если асимметрия существенно отличается от 0, то распределение несимметрично, в то время как нормальное распределение абсолютно симметрично, а его асимметрия равна 0. Асимметрия распределения с длинным правым хвостом положительна. Если распределение имеет длинный левый хвост, то его асимметрия отрицательна. На гистограмме можно увидеть, к примеру, что распределение бимодально (имеет 2 пика), это может быть вызвано тем, что выборка неоднородна, возможно, извлечена из двух разных по свойствам, каждая из которых более или менее нормальна. В таких ситуациях, чтобы понять природу наблюдаемых переменных, можно попытаться найти качественный способ разделения выборки на две части.

При возрастании объема выборки форма выборочного распределения приближается к нормальной, даже если распределение исследуемых переменных не является нормальным. Центральная предельная теорема гласит, что при размере выборки n > 30 выборочное распределение уже почти нормально.

Важным способом описания переменной является форма ее распределения, которая показывает, с какой частотой значения переменной попадают в определенные интервалы. Эти интервалы, называемые интервалами группировки, выбираются исследователем, которого интересует, насколько точно распределение можно аппроксимировать нормальным. Характерное свойство нормального распределения состоит в том, что 68% всех его наблюдений лежат в диапазоне ±1 стандартного отклонения от среднего, а диапазон ±2 стандартных отклонения содержит 95% значений. Другими словами, при нормальном распределении стандартизованные наблюдения меньше–2 или больше +2 имеют относительную частоту менее 5%.

1-86 87 88 89 90 91 92 93 94 95 96

Сумеречный Стрелок 2

Карелин Сергей Витальевич

2. Сумеречный стрелок

Фантастика:

городское фэнтези

попаданцы

аниме

5.00

рейтинг книги

Не грози Дубровскому! Том Х

Панарин Антон

10. РОС: Не грози Дубровскому!

Фантастика:

фэнтези

попаданцы

аниме

5.00

рейтинг книги

Измена. Верну тебя, жена

Дали Мила

2. Измены

Любовные романы:

современные любовные романы

5.00

рейтинг книги

Волк 2: Лихие 90-е

Киров Никита

2. Волков

Фантастика:

попаданцы

альтернативная история

5.00

рейтинг книги

Крестоносец

Ланцов Михаил Алексеевич

7. Помещик

Фантастика:

героическая фантастика

попаданцы

альтернативная история

5.00

рейтинг книги

Законы Рода. Том 4

Flow Ascold

4. Граф Берестьев

8. РОС: Не грози Дубровскому!

4. Темный Патриарх Светлого Рода

Фантастика:

фэнтези

юмористическое фэнтези

аниме

5.00

рейтинг книги

Чтение онлайн

книги

авторы

Жанры

Деловая литература

Детективы

Детские

Документальная литература

Дом и Семья

Драматургия

Жанр не определен

Компьютеры и Интернет

Любовные романы

Научно-образовательная

Поэзия

Приключения

Проза

Прочее

Религия и эзотерика

Справочная литература

Старинная литература

Техника

Фантастика

Фольклор

Юмор

Тестовый контроль в образовании

Ефремова Надежда

Шрифт:

Сумеречный Стрелок 2

2. Сумеречный стрелок

Фантастика:

городское фэнтези

попаданцы

аниме

рейтинг книги

Не грози Дубровскому! Том Х

10. РОС: Не грози Дубровскому!

Фантастика:

фэнтези

попаданцы

аниме

рейтинг книги

Измена. Верну тебя, жена

2. Измены

Любовные романы:

современные любовные романы

рейтинг книги

Волк 2: Лихие 90-е

2. Волков

Фантастика:

попаданцы

альтернативная история

рейтинг книги

Крестоносец

7. Помещик

Фантастика:

героическая фантастика

попаданцы

альтернативная история

рейтинг книги

Законы Рода. Том 4

4. Граф Берестьев

Фантастика:

юмористическое фэнтези

аниме

рейтинг книги

Ученик. Книга третья

3. Ученик

Фантастика:

фэнтези

рейтинг книги

Менталист. Эмансипация

1. Выиграть у времени

Фантастика:

альтернативная история

рейтинг книги

Не грози Дубровскому! Том VIII

8. РОС: Не грози Дубровскому!

Фантастика:

фэнтези