Тестовый контроль в образовании
Шрифт:
• невыполнение данного задания по–разному сказывается на изменении сертификационного балла в зависимости от выполнения остальных заданий;
• верное выполнение одного и того же задания теста по–разному сказывается на росте сертификационного балла в зависимости от качеств остальных выполненных заданий;
• труднее улучшить высокий результат, чем средний и, тем более, низкий (как в спорте: чем выше планка, тем труднее повышение результата).
Такой балл имеет основные черты количественной меры, а поэтому позволяет проводить объективное сопоставление результатов, производить математико–статистический анализ, изучать динамику различных образовательных
Все это влечет за собой ряд существенных преобразований при определении результатов обучения, в частности перевода «сырыж» баллов в шкалу перцентильных рангов и др. [76]. Появляются сопоставимость и возможность сравнения результатов, полученных испытуемыми при выполнении тестов.
Понятно, что шкала тем лучше (т.е. тем достовернее), чем она надежнее. Один из способов сделать шкалу более достоверной – просто добавить в нее новые позиции. Однако на практике количество позиций на шкале ограничивается различными факторами (например, респонденты устали и просто не будут отвечать на большое число вопросов, полное пространство ограниченно и т.д.). Для построения надежной шкалы необходима последовательность нескольких действий.
1. Написать вопросы – исключительно творческий процесс, когда исследователь создает как можно больше вопросов, которые, как ему кажется, всесторонне описывают контролируемое содержание. Теоретически следует выбирать вопросы, связанные с заданной концепцией измерений. В области образовательного и психологического тестирования на этой стадии конструирования шкалы обычно обращают внимание на аналогичные анкеты и опросники для того, чтобы получить максимально полное представление о концепции.
2. Провести апробацию заданий на начальной выборке типичных респондентов и проанализировать результаты по каждому пункту для построения надежной шкалы и выявления уровня трудности заданий теста. В образовательных и психологических тестах обычно используют вопросы с ответами типа да/нет (или 1/0) – дихотомическая оценка. Надежная шкала состоит из вопросов (позиций), которые пропорционально разделяют ее на интервалы, их называют калиброванными заданиями, т.е. заданиями с известным уровнем трудности.
3. Из первоначального теста удалить все вопросы, дающие значительные отклонения. После удаления всех вопросов, которые не согласуются со шкалой, можно остаться без достаточного количества вопросов для того, чтобы создать полностью надежную шкалу (напомним, что чем меньше вопросов, тем менее надежна шкала).
4. Вернуться к первому действию. На практике исследователь часто несколько раз проходит через этапы создания и удаления вопросов до тех пор, пока не придет к их окончательному набору, образующему надежную шкалу.
При построении шкалы по тесту возникают определенные проблемы, связанные с ее неустойчивостью, в том случае, если тест используется в различное время учебного года либо выполняется испытуемыми различных возрастных групп. Однако и в этих случаях можно предпринять определенные шаги, способствующие повышению устойчивости тестовых шкал. При этом необходимо предположить, что приращение оцениваемого уровня подготовки по предмету происходит равномерно на протяжении всего времени изучения предмета [201].
В качестве таких шагов при конструировании шкалы зарубежные исследователи предлагают:
• получить репрезентативную выборку для вычисления устойчивых оценок уровня подготовки испытуемых с известными стандартными ошибками измерения;
• предъявить тест выборке подходящего возраста и периода обучения, объединив испытуемых выборки в одинаковые возрастные группы и разбив на трехмесячные подгруппы по периодам обучения;
• определить средний балл для каждой подгруппы, шкалировать результаты;
• интерполировать шкалированные результаты между соседними средними для тех «сырых» баллов, которые не наблюдались в выборке;
• экстраполировать результаты с учетом минимального и максимального наблюдаемых баллов для установления возможных границ шкалы по тесту;
• результаты интерполяции и экстраполяции собрать в таблицу, указывающую шкалированные эквиваленты «сырых» баллов в различных возрастных подгруппах или с учетом определенного периода обучения.
Информатизация процедур тестирования, обработки и проверки результатов привела к созданию статистических отчетов, позволяющих оперативно получать на единой шкале оценок показатели учебных достижений по различным выборкам.
3.6. Обоснование структуры контрольных измерительных материалов и подходов к шкалированию результатов
Наиболее важная сфера создания теста связана с оценкой его содержательной валидности. В отличие от отбора содержания традиционных средств контроля, который в основном производится интуитивно на основании практического опыта педагога, отбор содержания теста как контрольного измерительного инструмента имеет четкую целевую направленность и при условии правильной постановки целей является серьезной заявкой на его высокое качество. Научно обоснованное планирование содержания является важнейшей предпосылкой достижения высокой валидности тестов как контрольных измерительных материалов. При этом процесс валидизации содержания включает три основных компонента: целеполагание, планирование содержания, оценку содержательной валидности экспертными и статистическими методами.
Планирование теста начинается с целеполагания, которым результаты обучения сопрягаются с целями учебного процесса, представленными в различных таксономических системах. Образно говоря, при создании теста в сознании разработчика содержание контроля преломляется через поставленные цели измерения, и если они сформулированы правильно, то есть уверенность в высокой содержательной валидности теста [197].
Этап целеполагания при создании валидного теста является наиболее трудным, так как от него в первую очередь зависит качество содержания теста. В процессе целеполагания решается вопрос о том, какие результаты испытуемых следует оценивать с помощью теста. При всей его кажущейся простоте на деле это зачастую оборачивается низким качеством результатов контроля и неправильными выводами о достижении целей обучения. В сложившейся практике при формулировании образовательных целей имеют место излишняя общность, расплывчатость, многообразие и неопределенность, в то время как для создания средств измерения в первую очередь необходима предварительная операцио–нализация целей.