Тестовый контроль в образовании
Шрифт:
Таким образом, использование IRT приводит к созданию тестов, обладающих несколькими достоинствами:
• моделирование структуры теста по задачам тестирования;
• объективные оценки параметра, характеризующего подготовленности испытуемых;
• устойчивость, обусловленная относительной инвариантностью оценок независимо от трудности заданий теста при достаточном количестве испытуемых;
• объективность значений параметров трудности заданий, не зависящих от свойств выборки испытуемых, выполнявших тест;
• измерение значений оценок испытуемых и трудности заданий теста на единой шкале логитов, имеющей свойства интервальной шкалы;
• возможность с достаточной точностью предсказать вероятность правильного выполнения заданий теста испытуемыми любой выборки до предъявления теста;
• возможность оценить эффективность различных по трудности
• наличие дифференцированной ошибки измерений;
• сохранение сопоставимости результатов при проведении тестирования многих групп испытуемых различными вариантами одного и того же теста.
На рис. 10 представлены параметры и некоторые характеристики отдельных заданий тестов по математике.
Задания взяты из банка тестовых заданий Центра тестирования, используемых при критериально–ориентированной интерпретации результатов аттестационного тестирования. Данный рисунок является примером того, как можно визуализировать параметры самих тестовых заданий для последующего отбора и включения их в банк тестовых заданий, а затем в конструируемый или совершенствуемый тест. Результаты параметризации приведенных двух заданий указывают на их разные уровни трудности и значения дифференцирующих способностей.
По характеристической кривой задания 1 половина учащихся, выполнивших задание, приходится на –1,1 логита, а выполнивших задание 2 – на –1,7 логита. Этим же значениям логитов соответ
Рис. 10. Характеристики тестовых заданий
ствуют максимумы кривых эффективности заданий. Вид характеристической кривой (крутизна) указывает на дифференцирующую способность задания, т.е. большая крутизна характеристической кривой соответствует большей дифференцирующей способности задания. Задание 1 перекрывает на логистической шкале диапазон примерно от–2,5 до +0,5 логитов с дифференцирующей способностью ?= 1,3, а задание 2 – от–2,5 до–0,5 логитов с 0 =2. Работая с банком таким образом калиброванных заданий, можно их подбором перекрыть любой заранее запланированный интервал на шкале логитов.
В последнее время в обиход входит такой показатель, как информативность теста, связанный с использованием моделей IRT. Здесь обращается внимание на два ключевых понятия: число заданий теста и уровень подготовленности испытуемого. В данном случае информативность сопрягается с оптимальностью, если по трудности заданий тест соответствует уровню подготовленности учащегося или студента.
Поэтому для эффективности измерений уровня подготовленности испытуемых и повышения информативности контроля требуется набор тестов различной сложности, оцененных по шкале логитов. Показатель информативности впервые введен А. Бирн–баумом [231]. Считается, что чем больше трудность теста соответствует подготовленности испытуемого, тем больше информации можно получить, соответственно, выше эффективность такого тестирования. Согласно В.С. Аванесову, эффективное тестирование – это обязательно индивидуализированное измерение уровня подготовки каждого испытуемого с помощью теста, оптимального по трудности и минимального по количеству заданий [4].
В теории и практике тестирования качество тестов, так же как и тестовых заданий, оценивается по таким критериям, как надежность, валидность, дифференцирующая способность и др.
Оценка параметров трудности заданий и направления улучшения теста показаны на примере параметризации одного из абитуриентских тестов по математике, использованного при централизованном тестировании, и демонстрируют способ визуализации метрических возможностей исследуемого теста. Приведенный ниже пример указывает на возможности визуализации характеристик самого теста, пределы и возможности его использования, оценки недостатков и информацию о том, как на основе имеющегося банка калиброванных тестовых заданий поэтапно провести совершенствовать такой тест как педагогическое измерительное средство.
Параметризация теста выполняется с помощью современных математических моделей. Характеристические кривые трудности тестовых заданий, полученных таким образом, представлены на шкале логитов (рис. 11). Эмпирические данные тестирования большого числа учащихся (выборка составляла более 200 человек), выполнявших один и тот же вариант теста, обработаны с помощью программных средств [71], в основу которых положена однопараметрическая модель Г. Раша. Это позволило визуализировать структуру трудности теста. Вверху сетки рисунка обозначены номера тестовых заданий, по вертикали – доля выполненных заданий, по горизонтали – уровни трудности заданий теста на шкале логитов в диапазоне от–7 до +7. Видно, что характеристические кривые всех 20 заданий исследуемого нами теста достаточно равномерно распределены вдоль логистической шкалы. Неравномерность видна только на небольших участках в интервалах от–0,78 до–0,5 и от–0,27 до 0,07 логита. Для его совершенствования два промежутка неравномерности на логистической шкале можно заполнить либо корректировкой заданий под номерами 2, 15 и 3, 11, либо заменой их из банка тестовых заданий на другие, более соответствующие диапазону требуемой трудности.
Рис. 11. Характеристические кривые заданий абитуриентского теста по матем
Проверка теста на содержательную валидность показывает, что тест достаточно хорошо отображает учебную программу, но его можно еще улучшить, если произвести замену двух заданий 3 и 16 или 4 и 17 на задания из других тем. Коэффициент корреляции заданий с индивидуальной суммой баллов находился в пределах от 0,37 до 0,64, что позволяет считать такой тест и его задания достаточно валидными, хорошо дифференцирующими уровни знаний разных испытуемых. Информационная кривая этого теста симметрична относительно 0 и позволяет использовать тест для проверки испытуемых с уровнем знаний в диапазоне от–2,5 до +2,5 логита, соответствующем требованиям нормативно–ориентированной интерпретации результатов. В соответствии с требованиями абитуриентского тестирования такой тест можно считать качественным.
Распределение индивидуальных тестовых баллов испытуемых на 100–балльной шкале оказалось близким к нормальному с максимумом в середине оси сертификационных баллов, стандартное отклонение соответствовало значению 4,9. Трудность заданий теста находилась в пределах от–0,78 до 1 логита, среднее значение трудности всего теста составило 0,1 логита.
В случае использования готового теста с известными параметрами трудности его заданий задача сводится только к оцениванию параметра подготовленности тестируемого. Поскольку у всех обучающихся уровень подготовленности и темп обучения разные, то для развития мотивационно–побудительных стимулов следует подбирать уровень трудности заданий, соответствующий зоне актуального развития обучающегося, а сами задания – посильные для самостоятельного выполнения. В тесте необходимо предусматривать также наличие заданий более трудных, соответствующих зоне потенциального развития учащихся, выполнение которых возможно в сотрудничестве с педагогом. Включение легких заданий и заведомо трудных в процесс обучения неэффективно. Использование в учебном процессе тестов с заданиями известной трудности позволяет активизировать работу всех обучающихся на основе дифференцированного подхода к обучению.
Основываясь на рассмотренных выше основных положениях теории IRT, можно отметить, что современные технологии тестирования способствуют развитию технологий индивидуализированного обучения. Однако если при традиционных способах обучения учитель самостоятельно определяет зоны развития обучающихся интуитивно во взаимодействии с каждым отдельным учащимся путем опроса или контрольной работы, то технология использования тестов в учебном процессе позволяет с заданной точностью не только учителю, но и каждому обучающемуся определять зону своего развития и работать на грани своих возможностей. Это открывает новые перспективы в организации образовательного процесса на принципах дифференцированного обучения, перестройки взаимоотношений между обучающимися и обучаемыми на основе сотрудничества, доверия и творческой самостоятельности обучающихся. При таком подходе контроль из средства оценки и принуждения к обучению становится средством активизации познавательной деятельности и учебной активности, технологией самообучения и саморазвития. В этой связи возникает проблема методологического характера, связанная с обоснованием оптимальности использования тестов в учебном процессе не только при подготовке к итоговой аттестации выпускников, но и на ранних стадиях обучения. В этой связи в центре внимания находится вопрос об использовании тестовых заданий известной трудности для самообучения школьников, при аттестации и самоаттестации образовательных учреждений.