Чтение онлайн

на главную

Жанры

Тестовый контроль в образовании

Ефремова Надежда

Шрифт:

Для характеристики меры изменчивости распределения используют показатель вариации или стандартное отклонение, представляющее собой корень квадратный из дисперсии:

Иногда используют стандартизованное наблюдение, которое означает, что из исходного значения вычтено среднее и результат поделен на стандартное отклонение.

Исследователю часто бывают необходимы такие статистики, которые позволяют сделать вывод относительно свойств генеральной выборки в целом. Для этого используются описательные статистики, оперирующие такими понятиями, как истинное среднее и доверительный интервал. Среднее генеральной выборки является информативной мерой положения наблюдаемой переменной в доверительном интервале. Доверительный интервал представляет собой интервал, в котором с заранее выбранной вероятностью, близкой к единице (меньшей единицы на величину выбранного уровня значимости критерия), можно утверждать, что с данным уровнем доверия находится истинное значение оцениваемого параметра. Ширина доверительного

интервала зависит от объема или размера выборки, а также от разброса (изменчивости) данных. Увеличение размера выборки делает оценку среднего более надежной.

Например, если среднее выборки равно 23, а нижняя и верхняя границы доверительного интервала с уровнем p = 95 равны 19 и 27 соответственно, то можно заключить, что с вероятностью

95% интервал с границами 19 и 27 накрывает среднее генеральной выборки. Если установить больший уровень доверия, то интервал станет шире, возрастет вероятность, с которой он накрывает неизвестное среднее генеральной выборки, и наоборот. Известно, что чем неопределеннее прогноз погоды (т.е. шире доверительный интервал), тем вероятнее, что он будет правильным. Увеличение разброса наблюдаемых значений уменьшает надежность оценки. Вычисление доверительных интервалов основывается на предположении нормальности наблюдаемых величин. Если это предположение не выполнено, то оценка может оказаться плохой, особенно для малых выборок. При увеличении объема выборки, скажем, до 100 или более качество оценки улучшается и без предположения о нормальности выборки [237].

Во многих областях исследований точное измерение переменных само по себе представляет сложную задачу, например в психологии точное измерение личностных характеристик или отношений к чему–либо. В целом, очевидно, во всех социальных дисциплинах ненадежные измерения будут препятствовать попытке правильно предсказать результат. В прикладных исследованиях, когда наблюдения над переменными затруднены, важна точность измерений.

Надежность и точность позволяют построить шкалы измерений или улучшить используемые с помощью классической теории тестирования. В этом контексте надежность понимается непосредственно: измерение является надежным, если его основную часть по отношению к погрешности составляет истинное значение. Оценивание надежности шкалы основано на корреляциях между индивидуальными позициями или измерениями, составляющими шкалу, и дисперсиями этих позиций. Показатель разброса некоторого множества результатов измерений вокруг среднего арифметического называется дисперсией, величина которой определяется по формуле:

где X – число правильно выполненных заданий N испытуемьши.

Каждое измерение (ответ на вопрос) включает в себя как истинное значение, так и частично не контролируемую, случайную погрешность. Для эффективного функционирования контрольно–оценочной системы необходимы высокая надежность и валид–ность педагогических измерений. Под надежностью понимают точность измерений, а также устойчивость результатов к действию случайных факторов. Тест считается надежным, если он обеспечивает высокую точность измерений, а также дает при повторном выполнении на той же выборке близкие результаты при условии того, что подготовка испытуемых не изменилась за время до повторного выполнения теста.

На протяжении десятилетий вопросы надежности исследовались многочисленными теоретиками и практиками в области педагогических измерений. Особо следует отметить работу R.L. Linn [241], в которой рассматриваются не только процедуры оценки надежности, но и методологические вопросы обоснования качества тестовых измерений. Его подход оправдан тем, что в требовании проверки теста на надежность реализуется важная идея методологического характера, связанная с неизбежностью ошибок измерения, порождаемых группой случайных факторов. В самой общей трактовке надежность тестов можно рассматривать как характеристику существующих различий между результатами педагогических измерений и истинными баллами испытуемых (подготовленностью) в той мере, в какой эти различия порождаются случайными ошибками измерения. В теории педагогических измерений ошибка трактуется как статистическая величина, отражающая степень отклонения наблюдаемого балла от истинного балла ученика или студента.

Существование ошибки измерения закладывается и привносится в теорию педагогических измерений основными аксиомами классической теории тестов. К числу наиболее важных аксиом, закладывающих научный фундамент обоснования теории надежности тестов, можно отнести равенство:

Xik= Ti+ Eik,

где Xkнаблюдаемый результат i – го испытуемого выборки по тестовой форме k ; Ti – его истинный балл; Eik – суммарная ошибка измерения при оценке i – го испытуемого с помощью k – й формы теста.

Использование аксиом и предположения о нормальном характере распределения статистик по тесту приводит к фундаментальному соотношению классической теории тестов, связывающему дисперсию наблюдаемых баллов Sx2, дисперсию истинных баллов Sт2 и дисперсию ошибок измерения Sе2 согласно которому Sx2= Sт2+ Sе2,

где Sx2 , в свою очередь, состоит из двух слагаемых, одно из которых – наиболее важная общая часть дисперсии, составляющая основу корреляционных и дисперсионных методов исследования качества теста, а другое – специфическая часть. Принято счи тать, что общая часть определяется различиями в подготовке испытуемых, в то время как специфическая часть дисперсии порождается различиями в содержании заданий теста. Разделив на Sx2 почленно равенство, получим

 Sx2/ Sx2 = Sт2 / Sx2 + Sт2/ Sx2, или Sт2 / Sx2 = 1 – Sе2/ Sx2

где следует понимать как среднее арифметическое дисперсий ошибок для различных испытуемых из генеральной совокупности, поскольку ошибка при оценке истинного балла будет меняться для различных испытуемых группы.

Естественно предположить, что чем ближе Sx2 к Sт2 , тем выше корреляция между множеством наблюдаемых баллов X и множеством истинных баллов T и, следовательно, тем надежнее тест. Поэтому отношение Sт2/ Sx2 = rн обычно трактуют как характеристику надежности теста.

Одним из способов вычисления надежности суммарной шкалы является разбиение суммарной шкалы случайным образом на две половины. Если суммарная шкала совершенно надежна, то следует ожидать, что обе части абсолютно коррелированы (т.е. r = 1,0). Если суммарная шкала не является абсолютно надежной, то коэффициент корреляции будет меньше 1. Можно оценить надежность суммарной шкалы посредством коэффициента Спирме–на—Брауна:

rсб = 2rxy /(1 + rxy),

где rсб – коэффициент надежности; rxy – корреляция между двумя половинами шкалы х и у.

Если используемая шкала коррелирует с измеряемым показателем, то можно говорить о достоверности шкалы, т.е. о том, что она действительно измеряет то, для чего создана, а не что–нибудь другое. Построение достоверной выборки – это продолжительный процесс, при котором исследователь изменяет шкалу в соответствии с различными внешними критериями, теоретически связанными с той концепцией, для подтверждения которой и строится шкала. Фактически достоверность шкалы всегда ограничивается ее надежностью, поэтому важной составляющей анализа данных является корреляция, представляющая собой меру взаимозависимости переменных. При заданной надежности двух связанных между собой измерений (т.е. шкалы и исследуемого показателя) можно оценить корреляцию между истинными значениями разных измерений. Это изменение корреляции обусловлено либо значениями, задаваемыми пользователем, либо реальными исходными данными.

Поделиться:
Популярные книги

Сумеречный Стрелок 2

Карелин Сергей Витальевич
2. Сумеречный стрелок
Фантастика:
городское фэнтези
попаданцы
аниме
5.00
рейтинг книги
Сумеречный Стрелок 2

Не грози Дубровскому! Том Х

Панарин Антон
10. РОС: Не грози Дубровскому!
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Не грози Дубровскому! Том Х

Измена. Верну тебя, жена

Дали Мила
2. Измены
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Измена. Верну тебя, жена

Волк 2: Лихие 90-е

Киров Никита
2. Волков
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Волк 2: Лихие 90-е

Крестоносец

Ланцов Михаил Алексеевич
7. Помещик
Фантастика:
героическая фантастика
попаданцы
альтернативная история
5.00
рейтинг книги
Крестоносец

Законы Рода. Том 4

Flow Ascold
4. Граф Берестьев
Фантастика:
юмористическое фэнтези
аниме
5.00
рейтинг книги
Законы Рода. Том 4

Ученик. Книга третья

Первухин Андрей Евгеньевич
3. Ученик
Фантастика:
фэнтези
7.64
рейтинг книги
Ученик. Книга третья

Менталист. Эмансипация

Еслер Андрей
1. Выиграть у времени
Фантастика:
альтернативная история
7.52
рейтинг книги
Менталист. Эмансипация

Не грози Дубровскому! Том VIII

Панарин Антон
8. РОС: Не грози Дубровскому!
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Не грози Дубровскому! Том VIII

Столичный доктор. Том III

Вязовский Алексей
3. Столичный доктор
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Столичный доктор. Том III

Тринадцатый IV

NikL
4. Видящий смерть
Фантастика:
боевая фантастика
попаданцы
5.00
рейтинг книги
Тринадцатый IV

Возвышение Меркурия. Книга 3

Кронос Александр
3. Меркурий
Фантастика:
попаданцы
аниме
5.00
рейтинг книги
Возвышение Меркурия. Книга 3

Поход

Валериев Игорь
4. Ермак
Фантастика:
боевая фантастика
альтернативная история
6.25
рейтинг книги
Поход

Темный Патриарх Светлого Рода 4

Лисицин Евгений
4. Темный Патриарх Светлого Рода
Фантастика:
фэнтези
юмористическое фэнтези
аниме
5.00
рейтинг книги
Темный Патриарх Светлого Рода 4