Тестовый контроль в образовании
Шрифт:
Номинальная, или шкала наименований, самая простая, например: зачет – незачет. Номинальные переменные используются только для качественной классификации. Это означает, что данные переменные могут быть измерены только в терминах принадлежности к некоторым, существенно различным классам, при этом определить количество или упорядочить эти классы невозможно. Типичные примеры номинальных переменных – пол, национальность, цвет, город и т.д. Часто номинальные переменные называют категориальными. Шкала наименований устанавливает критерии, позволяющие распределить измеряемые объекты по состоянию измеряемого свойства на несколько классов (или категорий). При этом каждый объект должен попасть в определенный класс, в котором объектам приписывается одно и то же число. Объекты одного класса считаются одинаковыми по состоянию измеряемого
Порядковые шкалы (например, пятибалльная) – это шкалы, результаты измерений по которым невозможно сравнивать между собой. Порядковые переменные позволяют только ранжировать (упорядочить) объекты, указав, какие из них в большей или меньшей степени обладают качеством, выраженным данной переменной. Однако они не позволяют сказать на сколько больше или на сколько меньше один результат отличается от другого. Само расположение шкал – номинальная, порядковая, интервальная – является примером порядковой шкалы. В пределах порядковых шкал можно только упорядочить объекты в порядке возрастания или убывания оценок измеряемых параметров. На такой шкале оцениваются только качественные признаки объектов, например оценка А > В, или медианный объект, который по измеряемому свойству переходит за 50%. Число, приписываемое такому объекту, называется медианой и принимается за меру центральной тенденции грутты объектов [121].
Шкала более высокого уровня называется интервальной (или шкалой равных единиц). Интервальные переменные позволяют не только упорядочить объекты измерения, но и численно выразить и сравнить различия между ними. Например, температура, измеренная в градусах Фаренгейта или Цельсия, образует интервальную шкалу. Она позволяет сказать, что температура 40 градусов выше, чем температура 30 градусов, и что увеличение температуры с 20 до 40 градусов вдвое больше увеличения температуры с 30 до 40 градусов. Интервальная шкала – количественная, можно задать разность оценок (Х1 – Х2 ), абсолютное значение которой трактуется как расстояние между двумя элементами множества, выраженное в определенных единицах. Для такой шкалы характерно отсутствие начала отсчета, равного нулю, но допустимы различные арифметические действия над числами. Эта шкала задает взаимное положение измеряемых объектов относительно друг друга, но не показывает расположение объектов относительно начала координат. Так, например, разности баллов 48 – 45 и 5 – 2 одинаковы, а смысл их разности может быть различным. К результатам измерений на такой шкале применимы почти все статистические операции.
Интервальная метрическая, или нормальная, – это такая шкала, у которой задано начало отсчета. На такой шкале можно определить не только метрики (единицы измерения), как на интервальной шкале, но и понятие нормы (местоположения от начала координат). В современной теории педагогических измерений перевод «сырых» баллов («сырые» баллы дают оценки на порядковой шкале обычно в числе правильно выполненных заданий) производится на интервальную шкалу, учитывающую степень трудности выполненных заданий. Для визуализации такой шкалы можно представить уровни трудности тестовых заданий j и профили ответов, соответствующих подготовленности i (рис. 14).
Рис. 14. Условный вид шкалы уровней трудности тестовых заданий и уровней подготовленности испытуемых
Шкала отношений позволяет получать самый высокий уровень измерений: допускает не только приписывание числа измеряемому объекту, но и все арифметические действия над этими числами и статистические операции, а также устанавливает равенство отношений чисел, приписываемых объектам, что вытекает из фиксированного положения нуля. Любая интервальная шкала может использоваться в качестве шкалы отношений, если в рамках проводимого измерения задать начало отсчета. Относительные переменные очень похожи на интервальные переменные. В дополнение ко всем свойствам переменных, измеренных в интервальной шкале, их характерной чертой является наличие нуля. Таким образом, для этих переменных являются обоснованными предложения типа: Х в два раза больше, чем Y. Типичными примерами шкал отношений являются измерения времени или пространства. Например, температура по Кельвину образует шкалу отношения, можно не только утверждать, что температура 200 градусов выше, чем 100 градусов, но и что она вдвое выше. Интервальные шкалы (например, шкала Цельсия) не обладают данным свойством шкалы отношения. Заметим, что в большинстве статистических процедур не делается различия между свойствами интервальных шкал и шкал отношения. На шкале отношений к полученным результатам применимы все известные понятия и методы математической статистики.
Содержательная статистическая обработка и интерпретация результатов измерений по этим шкалам могут быть только в том случае, когда методы обработки адекватны тем шкалам, к которым отнесена исходная информация. Методологией любого исследования по измерению и оценке результатов обучения является вероятностный подход, а методикой – применение аппарата математической статистики (см. приложение 3) [20, 36, 46, 89—92, 198, 233, 229]. Как понятие качества подготовленности оценка на шкале педагогических измерений имеет два основных смысла: суждение о ценности полученного знания и приблизительную характеристику некоторой величины – подготовленности [73, 183, 204].
Особенно важно использование различных шкал при тестировании, что, собственно, и делается при расчете сертификационных или тестовых баллов. При этом эффективность тестовых оценок зависит не только от качества теста, но и от используемых методов сравнения и интерпретации первичных («сырых») баллов. Стремление выявить истинные уровни знаний испытуемых, получить возможность сравнивать эти уровни между собой даже тогда, когда они определены по разным тестам, привело исследователей к разработке новых методов интерпретации результатов тестирования. Одной из сильных сторон тестового метода является не оценивание абсолютных результатов подготовленности, а измерение уровня учебных достижений обучающихся.
Это особенно важно при приеме в вузы, итоговой аттестации учащихся и диагностике качества их подготовленности.
Шкалированием принято называть комплекс вопросов, связанных с отображением на определенной шкале с единой метрикой латентных характеристик трудности всех заданий теста и выставлением каждому участнику тестирования окончательного балла, отображающего уровень его учебных достижений в заданной области знаний вне зависимости от того, в какой группе и над каким вариантом работал испытуемый.
При исследованиях предлагается учитывать ряд педагогических гипотез статистического типа: результаты выполнения одной и той же группой испытуемых различных заданий одинакового уровня не имеют существенных различий, а наблюдаемое различие объясняется случайными причинами; результаты двукратного выполнения одной и той же группой одного и того же задания существенно различаются, эти различия нельзя объяснить только случайными причинами; результаты выполнения одних и тех же заданий учащимися городских и сельских школ существенно различаются, фактор расположения школы (в определенном социуме) влияет на успеваемость учащихся.
Основной целью современного педагогического тестирования является надежное измерение уровня учебных достижений испытуемых в определенной области знаний. Традиционные методы тестирования (классические) используют порядковые шкалы, отличающиеся друг от друга длиной, масштабом и значением центрального индекса. Балл тестируемого определяется количеством правильно выполненных заданий А из общего числа заданий К. Тогда отношение А/К можно выразить в процентах и получить 100–балльную шкалу, называемую процентной.