Тестовый контроль в образовании
Шрифт:
По мнению М.В. Кларина, операционализация должна начинаться с описания направленности контроля и планируемых результатов воздействия на ученика, прояснения характера воздействия и детализации его результатов [92]. В этой связи он выделяет ряд вопросов, решение которых с необходимостью сопутствует процессу операционализации или конкретизации как выявлению образовательных условий, создаваемых для реализации целей; латентных параметров учащихся и их способностей к усвоению нового учебного материала; качества образовательного процесса. Процесс операционализации заключается в придании содержанию целей характеристик, позволяющих отобразить цели в стандартизованных средствах измерения как по содержанию,
После определения целей тестирования и их конкретизации разрабатываются план и спецификация теста. При разработке плана делается примерная раскладка процентного соотношения содержания разделов и определяется необходимое число заданий по каждому разделу дисциплины исходя из важности раздела и числа часов, отведенных на его изучение в программе. Раскладку начинают с подсчета планируемого исходного числа заданий в тесте, которое затем будет неоднократно меняться в процессе работы над тестом в сторону увеличения или уменьшения. Обычно предельное число не превышает 60 заданий. Определение планируемого распределения оценок трудности заданий теста проводится на основе выделения ряда критериев.
К примеру, для аттестационн^гх тестов ЕГЭ необходимо наличие:
• не менее 40% легких заданий, трудность которых обеспечивает 80—90% их выполнения, допускается невысокая дифференцирующая способность;
• 20% заданий с высокой дифференцирующей способностью вблизи критериального балла (по 10% с каждой стороны), предназначенного для отсева неаттестованных выпускников, а точки сгущения трудности заданий сосредоточены вблизи критериального балла;
• 60% трудных заданий с высокой дифференцирующей способностью для обеспечения требования нормального распределения оценок на оси измерения для абитуриентов.
В контрольных измерительных материалах ЕГЭ для дифференциации подготовленности и отбора абитуриентов большой удельный вес в оценке имеют задания части «С», или повышенного уровня со свободным конструированием развернутого ответа; их, как правило, не включают в аттестационную часть теста, так как для аттестации достаточно части «А» с выбором ответа из числа предложенных (закрытые задания) и «В» со свободным ответом. Повышение достоверности решений по отбору абитуриентов в вузы по профилирующим дисциплинам связывается именно с результатами выполнения части «С».
Процесс совершенствования тестов как контрольных измерительных материалов происходит непрерывно в целях оптимизации их структуры и упрощения процедур шкалирования. Оптимизация КИМов – это процесс максимального упрощения его структуры с опорой на тематическую логику учебного материала для реализации запланированных целей и получения необходимых статистических свойств теста. Такая процедура называется тестологической оптимизацией, она предусматривает:
• выявление оптимального числа частей и пропорций различных форм заданий в КИМах, адекватных целям тестирования;
• выявление оптимального числа заданий, определение планируемого распределения заданий по трудности и сопоставление планируемых оценок с эмпирическими данными;
• анализ расположения точек локализации заданий вдоль оси трудности;
• определение оптимальной длины каждой части КИМа, компьютерное моделирование теста запланированной надежности и дифференцирующей способности.
Путем подбора оптимального числа частей КИМа и пропорций различных по формам и трудности заданий могут быть сконструированы различные тесты. Для ЕГЭ по целевым критериям, как правило, планируются две части теста: упрощенная аттестационная, доступная для выполнения большинством выпускников, и усложненная абитуриентская часть теста, обеспечивающая высокую дифференциацию по уровням подготовленности.
К числу направлений совершенствования КИМ можно отнести:
• анализ эмпирических данных с целью оптимизации структуры КИМ и выбора адекватных моделей измерения и шкалирования;
• проведение исследований по стабилизации критериального балла;
• разработку методики анализа устойчивости шкалы;
• проведение сравнительных исследований методов выравнивания трудности вариантов КИМ на статистике результатов различных выборок;
• усиление связи шкалирования и оценивания с содержанием образования;
• выделение уровней учебных достижений для оценивания на пятибалльной шкале.
Последние требования тесно смыкаются с основными направлениями совершенствования процедур шкалирования результатов ЕГЭ:
• адекватность статистических характеристик эмпирических данных используемым моделям педагогического измерения для корректности процедур шкалирования и выравнивания;
• линейность преобразования первичных результатов в стобалльную шкалу и выравнивания данных по различным вариантам теста;
• прозрачность процедуры получения шкалированных баллов для пользователей (дети, родители, преподаватели и т.д.), убеждающая их в объективности и обоснованности результатов.
Каждый бланк ответов на задания в свободной форме проверяется двумя независимыми и специально подготовленными экспертами. В этой связи при шкалировании в качестве промежуточной используют ? –шкалу, не требующую корректной обработки нормального закона и позволяющую учитывать полито–мические данные части «С». Если оценки двух экспертов всех ответов (оцениваемых разным количеством баллов) на задания в свободной форме одного выпускника совпали, то полученные оценки считаются окончательными. В случае, если оценки двух экспертов отличаются незначительно, проводится построение компромиссной оценки, которая считается окончательной.
Существует параметрическая модель, в которой значимость оценок эксперта зависит от двух параметров. Первый характеризует склонность эксперта к завышению или занижению оценок по сравнению со всеми остальными экспертами, а второй выражает меру непредсказуемости выставления оценок. Параметры названы соответственно: лояльность и согласованность. Исходя из этих параметров строится оценка «веса» каждого эксперта: чем ближе к нулю лояльность эксперта и выше согласованность (ниже нестабильность), тем большим является «вес» данного эксперта. Для каждой дисщипшны задается положительное число S, характеризующее максимально допустимое суммарное отклонение оценок экспертов. Для каждого j – го задания в свободной форме задано число j , характеризующее максимально допустимое различие в оценках пары экспертов. Числа S и tj задаются разработчиками КИМов на основе экспертных оценок и экспериментальных исследований [17].