Контроль качества обучения при аттестации: компетентностный подход
Шрифт:
При оценке надежности нельзя полагаться лишь на один показатель, поскольку каждый из них имеет свои ограничения, смещающие оценки надежности теста в сторону завышения или занижения. Для достоверной проверки качества теста следует учитывать несколько показателей надежности, подсчитанных по разным формулам, лишь небольшая часть которых приведена в данном тексте. В качестве нижнего предела допустимых значений надежности обычно выбирают 0,7. При более низком значении использование теста вряд ли целесообразно в силу большой погрешности измерения.
Если тест разрабатывают профессионалы, то к нему предъявляют более жесткие требования. Как правило, тесты с надежностью менее 0,8 считаются непригодными в профессионально
6.5. Надежность и стандартная ошибка измерения
Один из аспектов применения коэффициента надежности связан с определением стандартной ошибки измерения. Для установления связи между стандартной ошибкой измерения и надежностью теста необходимо преобразовать формулу
и выделить в левой части SЕ2. После преобразования формулы относительно SЕ2 получится выражение SЕ2 = SX2 (1 – rн), или
где SX — стандартное отклонение по распределению индивидуальных баллов; rн – коэффициент надежности теста; SE — стандартная ошибка измерения. Это выражение обычно используется для вычисления SE по известным величинам rн и SX Что касается сущностного смысла, то SE (standard error of measurement) трактуется как стандартное отклонение результатов испытуемого от его истинного балла, полученное при выполнении им большого числа параллельных форм теста.
Для лучшего уяснения смысла показателя SE можно представить другую гипотетическую ситуацию, когда i– и испытуемый выполнял много раз один и тот же тест. Если предположить, что эффект запоминания отсутствует, то результаты тестирования образуют нормальное распределение вокруг истинного балла Тi со стандартным отклонением SE. На практике SE рассматривается как статистическая величина, отражающая степень точности отдельных измерений, поэтому величину SE используют для определения границ доверительного интервала, внутри которого должен находиться истинный балл оцениваемого ученика группы.
Построение доверительного интервала. Общераспространен подход, когда доверительный интервал выстраивается как две симметричные окрестности (левая и правая) вокруг наблюдаемого показателя ученика, хотя это не совсем верно, поскольку речь должна идти об окрестностях, расположенных слева и справа от истинного балла. Тем не менее этот факт вынуждено игнорируется в прикладных исследованиях в силу отсутствия истинного балла, и доверительный интервал при заданном риске допустить ошибку t = 0,05, т.е. в пяти случаях из ста, принимается равным (Xi – 1,96SE; Xi + 1,96SE), где i — наблюдаемый балл i– го испытуемого; 1,96 – константа, табличное число, используемое при t <= 0,05.
Для рассматриваемого ранее примера матрицы тестовых результатов (см. табл. 6.11), коэффициента надежности rн = 0,78 и стандартного отклонения SX = 2,62, вычисленного ранее для матрицы, SE будет равно
Тогда доверительный интервал для истинного балла первого ученика со значением Хi = 6 будет (6 – 1,23; 6 + 1,23) или (4,77; 7,23). Истинный балл первого ученика может находиться в любой точке этого интервала.
Интересна геометрическая интерпретация доверительного интервала на оси наблюдаемых баллов, приведенная для балла i– го учащегося. Очевидно, что с ростом SE границы доверительного интервала будут раздвигаться, и вместе с тем будут увеличиваться возможные пределы отклонения истинного балла от наблюдаемых результатов измерения (более правильная с точки зрения теории трактовка: пределы отклонения наблюдаемых баллов от истинной компоненты измерения).
6.6. Валидность гомогенных тестов
Валидность – это характеристика способности теста служить поставленной цели измерения. Как правило, постановка целей создания теста носит комплексный характер, поэтому часто стараются проверить валидность с разных позиций сообразно различным направлениям использования теста. Например, нормативно-ориентированный тест для приема абитуриентов в вузы должен служить цели дифференциации испытуемых и прогностическим целям, так как мало выделить лучших абитуриентов в момент приема, нужно также спрогнозировать успешность дальнейшего обучения зачисленных в вузы абитуриентов.
Оценивание валидности всегда проводится путем соотнесения характеристик результатов измерения с внешними критериями [ 1,28, 36]. В качестве таких критериев могут выступать оценки экспертов при анализе содержания теста и его адекватности целям измерения (содержательная валидность), результатов по другим тестам (конструктная валидность), успешности дальнейшего обучения (прогностическая валидность). Высокая корреляция между анализируемыми результатами испытуемых и внешними критериями подтверждает высокую валидность теста. Основная трудность при такой валидизации носит не практический, а методологический характер, поскольку она состоит в выборе значимого внешнего критерия.