Очень общая метрология, Ашкинази Леонид Александрович

Очень общая метрология

на обложку

Ашкинази Леонид Александрович

Шрифт:

Но очевидно, что такую шкалу проще и логичнее строить социологическими методами, то есть извлекая интуитивное представление из социума и потом оформляя его в виде процедуры. Можно взять сто портретов женщин и предложить мужчинам ранжировать их по красоте. Получается шкала из портретов, и располагая предъявленный для измерения портрет на этой шкале, мы сразу получаем оценку. Метод может быть сделан субъективно, если и шкалу, и привязку к шкале мы делаем сами, полуобъективным, даже двух типов — когда шкала делается усреднением, а привязка — индивидуально и наоборот, и вполне объективным, когда и обе операции делаются усреднением мнений.

Поле для метрологических исследований в этой проблеме безгранично. Надо сравнить два полуобъективных метода. Надо исследовать разброс при построении шкалы, вполне возможно, что выявятся кластеры (любители блондинок, любители топ-моделей и так далее) и тогда возникнет вопрос об объективности существования кластеров (типов) женщин, отраженных в существовании соответствующих кластеров мужчин. В этом случае возникнет вопрос о процедуре подбора экспертов. Надо исследовать устойчивость оценок при изменении как самого начального набора для построения шкалы, так и его численности. Вполне может оказаться, что устойчивость оценки (внутренняя валидность) максимальна при некотором определенном значении количества делений на шкале — например, не при ста, а при тридцати. Можно исследовать историческую эволюцию и обнаружить конвергенцию кластеров, то есть взаимное приспособление вкусов и мод. Научная честность требует отметить, что всемирное дебильное шоу под видовым именем «конкурс красоты» обходилось, обходится и будет обходиться без этой гипотетической науки. Равно и тот конкурс, который происходит у вас в голове.

очевидный и широко известный индекс — это интеллект. Люди хотят знать, насколько они умнее окружающих, а еще сильнее хотят узнать, насколько окружающие глупее их. Кроме собачатины, которой завалены прилавки и инет, существует большая и серьезная литература по вопросу. Прежде всего, бытовое понятие умный/глупый не покрывает явления, ибо даже на бытовом уровне видно, что на разных наборах задач ум проявляется по-разному. Так что одна область исследований — существуют ли типы ума, что это за типы, как их измерить в лаборатории, и как они проявляются в реальной ситуации, то есть при решении не тестов, а реальных задач. На основании представления о компонентах интеллекта (простейшая одноуровневая модель с простейшим взаимодействием) можно строить (как это и сделал Айзенк) композитный тест.

Например, Терстоун считал, что интеллект состоит из способности совершать арифметические операции, способности формулировать, способности понимать речь, памяти, способности комплексно решать проблемы с учетом опыта, пространственного мышления и способности распознавать и дифференцировать импульсы.

Мейки считал, что интеллект состоит из способности увидеть в проблеме внутреннюю организацию, способности перейти от одного содержания к другому, способности к пониманию целого, видению связей и способности упорядочить части проблемы по-иному.

Айзенк считал, что интеллект состоит из арифметических способностей, в том числе способности обнаруживать закономерности, лингвистических способностей, в том числе обнаруживать смысловые закономерности в тексте и постранственного мышления.

Для более узких ситуаций есть и более узкие гипотезы, например мы считаем, что способность решать сложные школьные задачи по математике состоит из двух компонент — умения правильно выбрать направление преобразование, то есть выбора, какой шаг сделать, и умения производить быстро и без ошибок простые вычисления, то есть делать эти шаги:

Сложное — много простого?

Эта заметка — о так называемом тестировании. В сознании людей сегодня проблема тестирования переплелась с проблемой единого экзамена. С самого же начала ясно скажем, что это — разные проблемы. Провести единый экзамен без тестирования можно. Но решить вопрос, нужен ли единый экзамен (предположим, что нам имеет смысл решать этот вопрос — хотя бы для того, чтобы иметь свое мнение и этим походить на нормальных людей), можно, только оценив эффективность экзамена, а она зависит от метода. В частности, может оказаться, что при каких-то методах его проведения единый экзамен хорош, а при каких-то других — плох, да настолько, что не нужен вообще. Поэтому вопрос о методе проведения экзамена является первоочередным. Определить эффективность экзамена прямыми методами (по последующей учебной и рабочей биографии) трудно, поэтому возникает соблазн заменить этот анализ пустыми разговорами, общественной активностью и политической волей. То есть чиновничьим волюнтаризмом.

В обыденном словоупотреблении тестирование — это решение испытуемым за ограниченное время относительно большого количества относительно простых задач, причем испытуемому предъявляется несколько вариантов ответов, из которых он должен выбрать правильный. Поэтому главные признаки тестирования — это простота задач и наличие вариантов ответов. Попробуем понять, что именно проверяет, а что не проверяет такой экзамен.

Собственно обучение — по крайней мере, в естественных и точных науках — это приведение ученика в такое состояние, когда он может решать задачи, которые могут возникнуть перед ним в дальнейшей жизни (в том числе и при дальнейшем обучении). Для решения задач человек должен знать факты, приемы решения, уметь выбрать прием и применить его. Возможно, что существует еще «нечто» (вдохновение, озарение, прозрение, творческий экстаз, единое информационное поле, ноосфера, эктоплазма, фэн-шуй и т. д.), но авторы полагают, что хоть какие-то шансы разобраться в устройстве мира появятся только в том случае, если речь пойдет о проверяемых и повторяемых фактах. Тогда решение задач сводится к знаниям, приемам и их выбору, и еще — уровню адреналина в крови.

Действительно, мы знаем, что никакой эктоплазмы в компьютере нет. Представьте себе Гермеса Трисмегиста перед этим компьютером — скорее всего, он как раз и заговорит о «нечто». Возможно, что перед человеческим мозгом мы выглядим сегодня так, как великий Трисмегист — перед компьютером. Утешьтесь тем, что сегодня люди знают, как работает компьютер, а Г.Т. был для своего времени умнейший человек.

Хорошо построенные тесты проверяют знание фактов и умение применить один прием, причем распространенный. Редко применяемый, малоизвестный, экзотический прием в тест включить трудно — задача не будет простой. Умение выбрать прием тест проверяет слабо — этот выбор требует времени, тем большего, чем выбор менее очевиден. Наконец, тест почти не способен проверить умение применить несколько приемов — по той же причине. При этом тест проверяет умение выбрать прием из списка, причем малого (в действительно хорошем тесте каждый неправильный вариант ответа является результатом применения неправильного приема), в жизни же списков обычно не предъявляют.

Однако самое важное не в этом. Многие из нас слышали, что существуют сложные задачи, а некоторые даже такие задачи видели. Сводится ли сложная задача к последовательному решению простых задач? Некоторые сторонники тестов отвечают, что да, сводится. И умение быстро решать простые задачи эквивалентно умению решать сложные — за большее время. Но в Физико-математической школе при МИЭМе экспериментально показано, что это не так. В течение ряда лет мы принимаем экзамены следующим способом. Школьники сдают два экзамена, оба — письменная математика, но один — тест: 30 или 60 задач на один час, другой — обычный экзамен: шесть задач на три часа. Так вот, корреляция между результатами довольно слаба. Можно лишь сказать, что тот, кто показал очень плохой результат на одном экзамене, не покажет очень хороший на другом.

Результаты за один из годов показаны на рисунке. По оси абсцисс — результат на тесте (максимум — 100 баллов), по оси ординат — на «большом» экзамене (максимум — 24 балла), каждая точка — один человек. Всего проэкзаменовано около 300 человек. Наиболее вероятный балл по тесту — 40 (из 100), по экзамену — 6 (из 24), то есть функция распределения на «большом» экзамене сдвинута в сторону меньших баллов. Это означает, что наши задачи были немного сложнее, чем надо. Что касается разрешающей способности, то чем равномернее распределение, тем лучше. У нас ширина функций распределения на уровне 1/2 амплитуды оказалась 60 (из 100) и 10 (из 24) соответственно, что следует признать неплохим результатом (по крайней мере тесты ЕГЭ по этим параметрам хуже — см. ниже).

Как связаны результаты теста и экзамена? При полной корреляции между тестом и экзаменом все точки легли бы на прямую, то есть оценка на тесте позволяла бы точно предсказать оценку на экзамене, при отсутствии корреляции результат на тесте не влиял бы на вероятность получения того или иного результата на экзамене. Из рисунка видно, что связь есть, а обсчет этих данных показывает, какова она. Получение плохого результата по тесту (нижние 7 % испытуемых, результат менее 20 из 100) означает, что наиболее вероятный результат на экзамене будет 3 (из 24), а не 6, как в общем случае. Попадание на тесте в нижние 40 % испытуемых (результат менее 40 из 100) уже мало что значит — наиболее вероятный результат на экзамене будет 5, а не 6 (из 24).

При этом надо отдельно и предельно ясно сказать, что все это лишь статистика — никакие средние данные ничего не говорят о конкретном человеке. Из рисунка видно, что был испытуемый, набравший почти максимум очков на тесте и лишь половину на экзамене, и был — набравший на тесте 16 из 100 (очень плохой результат) и больше половины очков на экзамене.

Попробуем понять, чем это может объясняться. Первая (простейшая) причина — интеллектуальная выносливость. Одно дело — решать задачу минуту, другое — час. А сохранять интеллектуальную активность три часа? В древности олимпиады по математике в МГУ длились пять часов, и уйти раньше считалось у нас западло. Но это сфера психологии, а что можно сказать в рамках собственно методологии интеллектуальной деятельности? Сложная задача — это не последовательность простых шагов, это дерево решения. Если в каждой точке можно применить пять приемов, то через пять шагов мы имеем за три тысячи вариантов. Причем внешне не очень успешный шаг может привести к успеху позже.

Умение быстро решать простые задачи так же не означает умения решать сложные, как умение быстро выбрать лучший ход не означает умения выиграть партию. В данном случае «силовая атака», то есть тупой перебор, дела не спасает в силу ограниченности времени. Поэтому в компьютерных шахматных программах ключевое место — так называемая «оценка позиции», и название это не случайно: человек каким-то образом оценивает ситуацию в целом. Нечто похожее имеется и при решении задач. Человек смотрит на выражение и ворчит — не, некрасиво… бред какой-то получается… или наоборот — во, так-то оно лучше, смотрите, как элегантно, тут квадрат, и тут квадрат, а ну-ка… Возможно, что именно это — умение оценить перспективность пути решения, не проходя по всему этому пути, — и есть то, что отличает человека, успешно решающего сложные задачи, от не умеющего их решать. Причем навык оценки позиции возникает только при решении большого количества сложных задач.

Кроме того, с помощью сложных задач может быть проверена одна весьма важная для жизни вещь — способность к обучению и навык обучения. Задача может быть построена так, что для ее решения необходимо наличие этой способности. Разумеется, такое делается редко, но с тестами это сделать вообще вряд ли возможно, причем по принципиальной причине: тест не осуществляет обратной связи, испытуемый не должен знать, правильно ли он решил задачу.

А нельзя ли совместить плюсы одного метода с плюсами другого? Один метод — найти некоторый промежуточный вариант, из средних по объему задач. Второй метод, который применили мы и независимо от нас применяют во многих тестах в США: «тест» содержит как типичные тестовые задачи, так и «большие» задачи. Возможно, что при создании системы тестов имело бы смысл изучить опыт педагогических систем, давно применяющих тестирование. Целью нашей работы не является критика ЕГЭ: во-первых, потому, что критика содержания ЕГЭ гораздо более увлекательна, нежели критика формального подхода, а во-вторых, потому, что решение о внедрении ЕГЭ принимается из совершенно иных соображений. Поэтому мы лишь предельно кратко остановимся на объЕГЭнии российского школьного образования.

При ознакомлении с заданиями ЕГЭ возникает ощущение, что некоторые из составителей отчасти понимали ограничения, свойственные разным типам задач и пытались включить в задания как одноходовки с выбором ответа из списка, так и некое слабое подобие творческих задач. Задачи того и другого типа составляют в заданиях ЕГЭ отдельные блоки, и внесение в итоговый документ оценок по каждому блоку позволило бы потребителю оценок (например, вузу) устанавливать более сложные и содержательные критерии. Логика использования таких двумерных оценок совершенно очевидна и мы не будем на ней останавливаться. Однако составители не пошли по этому пути (наверное потому, что он увеличивает на несколько процентов расход типографской краски на печать дипломов) и предпочли заняться формалистической игрой в «веса», которая позволяет — если задачи одного блока слишком просты, а другого слишком сложны — путем подбора «весов» придать общей функции распределения цивилизованный вид.

Данные о результатах ЕГЭ-2003 по всем предметам, причем не только отдельно по частям А+В и по части С («творческие» задачи), но и по корреляции этих результатов, приведены в издании «Новости образования». 17–18 за 2003 год. Мы воспользовались этими данными, чтобы ответить на вопрос — задания частей С по каким именно предметам ЕГЭ являются более и менее творческими по сравнению с частью А+В.

В названном выше издании результаты экзаменов приведены в форме изоуровней плотности распределения оценок в координатах (балл за А+В) — (балл за С). То есть для каждого сочетания оценок «А+В» и «С» указано, сколько экзаменующихся получили именно это сочетание. В общем случае изолинии должны иметь вид эллипсов (при неправильно выбранном среднем уровне сложности задач — урезанных вплоть до половины). По мере усиления корреляции эллипсы должны делаться более узкими, а при полной корреляции вырождаться в прямые линии — каждой оценке за «А+В» соответствует одна оценка за «С», отклонений нет. По мере ослабления корреляции эллипсы делаются относительно шире, а при ее отсутствии превращаются в окружности — изменение одной оценки не отражается на среднем значении другой.

Если посмотреть на опубликованные данные, то видно, что по отношению осей эллипсов предметы распадаются на две группы. Для русского языка, обществознания, математики и физики это отношение лежит в пределах от 2 до 3, а для географии, истории России, биологии и химии — в пределах от 4 до 5. Это означает, что для первых четырех предметов степень «творческости» в задачах блока С по отношению к А+В больше, чем для остальных предметов. Что касается сравнения наших тестов и ЕГЭ, то в тестах по математике за указанный год средний балл составляет по A+B около 20 из 30 (относительно терпимо), по С — меньше 3 из 16 — (плохо), а ширина функции распределения составляет около трети максимальной оценки, что несколько хуже, чем у нас.

Деление задач на «творческие» и «нетворческие» является экстремально примитивным. Можно, наверное, увидеть несколько параметров задач и построить выделить систему (или несколько независимых систем) параметров. Создание системы параметров плавно перетекает в создание модели явления. На этом пути мы могли бы понять, что такое задача. С другой стороны, имея систему параметров, мы могли бы попытаться составлять задачи, зондирующие способности экзаменующегося по каждому параметру или по заданным их сочетаниям. Пока же мы этого не умеем, надо пользоваться задачами, приближенными к жизни. Помните — «некто купил пять аршин синего сукна по три копейки и три аршина…»

Кто-то скажет, что в век компьютеров оно выглядит смешно. Может быть. Но много смешнее абитуриент вуза, не умеющий складывать дроби.

Ашкинази Л.А., Гайнер М.Л., Чернацкий С.Г., Физико-математическая школа МИЭМ

Наконец, упомянем оригинальный метод обработки данных, изложенный в частности в книге Франселла Ф. и Баннистер Д. Новый метод исследования личности.

В этом методе строится таблица, в которой по столбцам расположены элементы: люди, предметы, понятия, звуки, цвета, а по строкам расположены «конструкты»: параметры, шкалы, биполярные отношения, с точки зрения метрологии все это просто шкалы. Примеры конструктов: приятный-противный, хозяин-слуга, здесь-там, прошлое-будущее, уродливый-красивый. В клетках таблицы респондент отмечает, какое место на данной шкале (в данном конструкте) занимает тот или иной элемент, если он вообще может быть расположен на этой шкале. Так мы получаем, например, распределение по приятности людей, распределение по приятности цветов, распределение по близости к нам понятий и опять же людей и так далее. Исследователь может сам указывать респонденту конструкты-шкалы, а может в ходе интервью выявлять шкалы, которыми пользуется испытуемый, то есть выяснять, как он упорядочивает мир, в каких понятиях и терминах он мыслит. С точки зрения метрологии мышление «в шкалах» — продвинутое: мы не просто говорим, что политик M.
– жулик, а точно определяем, что он чуть менее жулик, нежели N., но более жулик, чем P.

Далее можно самыми разнообразными способами исследовать стабильность конструктов во времени — дрейф сам по себе или в процессе терапевтического взаимодействия. Или связь конструктов между собой — и выявить, например, что для данного человека связаны конструкты прошлое-будущее и лучше-хуже, причем чем дальше в прошлое, тем лучше.

Существуют ли поколения

Близко к вопросу об индексах лежит вопрос о кластерах. Ибо если кластеры — это ассоциации в пространстве переменных, то кластеры — это ассоциации в пространстве объектов. Но в индекс объединяют по определенным правилам иногда говорящие нечто близкое величины, а иногда — говорящие нечто противоположное. Например, можно назвать индексом качества изделия сумму очков, набираемых им по шкалам нескольких параметров, а упомянутая выше «оценка экономического положения страны» — индекс, составленный и из говорящих и нечто близкое, и нечто противоположное. В кластер же объединяют всегда нечто схожее.

Классический кластер в социологии — поколения. Но существуют ли они реально, или это имя без денотата? Формально это можно определить по функции распределения значений некоторого параметра по возрасту — если оно не унимодально, то кластеры существуют. По существу же можно спросить, есть ли причина, серьезно влияющая на параметры объекта и такая, что она по-разному действуют для части группы. Например, какие-то пережитые исторические события, повлиявшие на людей. «Послевоенное поколение» — 23, «Потерянное поколение» — 19, «Военное поколение» — 13, «Предвоенное поколение» — 0,7, «Поколение исхода» — 0,5 и, — о, мой личный восторг! — «Поколение П» — 180! Числа — это мощности кластеров в тысячах ссылок Google (тсG) — новых единицах, которые я предлагаю ввести…