Психология развития: методы исследования
Шрифт:
Второй из основных типов надежности называется надежностью внутренней согласованности. Теперь суть состоит в согласованности ответов на разные вопросы одного теста, предъявляемого однократно. Как правило, для этого пользуются процедурой «расщепления» теста на нечетные и четные задания с
последующим сравнением ответов между двумя этими категориями. Вновь о высокой надежности будет говорить высокая согласованность ответов.
Важно отличать надежность от других конструктов, которые также имеют отношение к согласованности независимо от полученных результатов. Предположим, что интервал между первым и вторым выполнением теста интеллекта не один день, а два года. Обнаружив значительное расхождение между этими двумя показателя -ми, должны мы сделать вывод о ненадежности теста или о том, что IQ ребенка действительно изменился за два года? Допустим, мы решили измерять не интеллект, а вес. Если наши измерения показывают, что 9-летний ребенок весит на 15 фунтов больше, чем он весил в 7-летнем возрасте,
Надежность измерения также важно отличать от типичности поведения. Вопрос типичности — это вопрос согласованности поведения в разных ситуациях. Предположим, нас интересует агрессия у дошкольников. Мы идем в детский сад и регистрируем все наблюдаемые там акты агрессии. На основе полученных данных мы вычисляем индекс агрессии для каждого ребенка. Затем мы отправляемся домой к детям и измеряем агрессию там. Обнаруживается, что наши показатели агрессии в домашних условиях слабо связаны с показателями агрессии в детском саду — иными словами, эти показатели существенно расходятся. Заключим ли мы, что один или оба метода измерения ненадежны? Хотя это вполне возможный вывод, более разумно было бы заключить, что уровень агрессии зависит от обстановки. В этом случае обнаруженный факт связан с типичностью поведения, а не с надежностью измерений.
Вероятно, полезно было бы резюмировать сказанное выше. Надежность — это свойство метода измерения; стабильность и типичность — это свойства поведения. Надежность — это то, что исследователь всегда пытается максимизировать. Стабильность и типичность же — это феномены, которые нужно изучать, а не максимизировать. Наконец, эти феномены можно изучать только по достижении достаточно высокого уровня надежности. Только будучи уверенными в надежности наших методов для определенного времени и ситуации, мы можем попробовать оценить согласованность поведения во времени (вопрос стабильности)*и в разных ситуациях (вопрос типичности).
Регрессия
Вернемся на время к ретестовой надежности. Надежность, которая далека от идеальной подразумевает, что результаты второго выполнения теста отличаются от результатов, полученных при первом тестировании. Можно ли уточнить это обобщенное утверждение и сказать что-либо о направлении изменения, то есть повысятся или понизятся результаты при втором предъявлении? Если рассматривать индивидуальные случаи, то предугадать направление измерения нельзя. Однако на уровне среднегрупповых показателей такой прогноз возможен. В целом испытуемые, получающие при первом тестировании низкие результаты, во второй раз справляются с заданиями успешнее, а испытуемые, получающие при первом тестировании высокие результаты, на второй раз справляются хуже. Тенденция, проявляющаяся в изменении при повторном тестировании изначально крайних показателей в направлении группового среднего, называется регрессией к среднему. Прежде чем попытаться объяснить, почему это происходит, рассмотрим конкретный пример. Допустим, мы предлагаем отобранной группе детей некий тест IQ и получаем распределение баллов, изображенное на рис. 4.2. Часть детей (пустые кружочки) получила оценки значительно ниже среднего, часть (закрашенные кружки) — значительно выше среднего, а результаты остальных (зачеркнутые кружки) находились в пределах среднего. Теперь предположим, что мы даем тот же тест той же группе неделю спустя и получаем распределение, изображенное на рис. 4.3. Как можно заметить, у детей, получивших первоначально низкие результаты, успешность в среднем повысилась, а у детей, первоначально получивших высокие результаты — снизилась. Таким образом, у обеих групп наблюдалась регрессия к среднему. Однако, поскольку некоторые из тех, кто первоначально справился с заданиями на среднем уровне, впоследствии улучшили или ухудшили свои результаты, общий диапазон значений и среднее значение остались неизменными.
Почему происходит регрессия? Результат любого испытуемого можно рассматривать как сумму двух компонентов — «истинного результата», или фактического значения измеряемого параметра, и погрешности, обусловленной несовершенством измерения. Ясно, что «погрешность» — это еще один способ описания надежности: абсолютная надежность подразумевает отсутствие погрешностей; и наоборот, чем больше погрешность, тем ниже надежность. В отношении погрешности обычно бывают оправданны два допущения. Первое — среди истинных показателей погрешность распределена по закону нормального распределения. Это означает, что небольшие погрешности встречаются чаще, чем существенные; это также означает, что погрешности с равной вероятностью могут привести как к завышению, так и к занижению индивидуальной оценки каждого испытуемого. Второе допущение — погрешности случайным образом распределены между испытуемыми и между тестовыми ситуациями. Это означает, что погрешность в результатах определенного испытуемого в одном тесте не коррелирует с погрешностью этого же испытуемого в другом тесте; погрешность в первом тесте не связана погрешностью во втором тесте.
Рассмотрим теперь результаты, изображенные на рис. 4.2. Каким образом на них отразились погрешности измерения? В частности, как повлияли на полученное распределение существенные погрешности, то есть те, которые приводят к значительному завышению или занижению результата? Справедливо допустить, что низкие показатели (пустые кружочки), в целом, явились следствием непропорционального количества отрицательных погрешностей; это одна из причин низких результатов части детей. Аналогично справедливо допустить, что высокие показатели, в целом, явились следствием непропорционального количества положительных погрешностей; это одна из причин высоких результатов другой части детей. Но что происходит при повторном тестировании? Вспомним, что погрешности результатов одного тестирования не связаны с погрешностями результатов другого. Поэтому маловероятно, что существенные погрешности изменят результаты тех же детей и в том же направлении. Скорее всего, результаты каждого ребенка затронет относительно небольшая погрешность, которая равно вероятно может исказить истинный показатель, как в сторону повышения, так и в сторону понижения. Это «выравнивание» погрешностей при повторном тестировании обусловливает тенденцию низких показателей к повышению, а высоких — к понижению; иными словами, обусловливает регрессию к среднему.
Основная проблема, которую ставит регрессия перед исследователем, очевидна. Как и недостаточная надежность в целом, регрессия представляет угрозу для валидности исследования. Более того, поскольку регрессия — систематический феномен, она может явиться причиной систематически неверных выводов. Предположим, что в описанном ранее исследовании IQ мы не только повторно протестировали детей, но и включили между первым и вторым тестированием новую образовательную программу. Получив результаты, указанные на рисунках 4.2 и 4.3, мы могли бы заключить, что эффект нашей программы зависит от изначального уровня способностей: программа привела к повышению IQ слабоодаренных детей, но фактически снизила IQ у одаренных. Очевидно, что в подобном случае регрессия может произвести ложное впечатление изменения. Или же регрессия может маскировать истинное изменение; к примеру программа действительно развивает у детей способности, однако истинное улучшение показателей делается незаметным из-за потерь, обусловленных регрессией.
Исследования программ вмешательства, таких как описанные выше, являются наиболее типичным контекстом проявления эффекта регрессии, так как выборкой для них обычно служат дети с низкой успеваемостью. Этому недостатку подвержены также определенного вида планы уравненных групп. Рассмотрим несколько измененную схему описанного в главе 3 исследования лиц, окончивших и не окончивших школу. Представьте теперь, что вас интересует стабильность IQ во времени. Сохраняются ли способности у окончивших школу лучше, чем у не окончивших ее? Вы уравниваете группы по показателю IQ, среднему между показателями обеих групп (скажем, 97) и проводите повторное тестирование 10 лет спустя, Принимая во внимание лишь регрессию, мы можем предположить, что средний показатель тех, кто окончил школу, повысится (поскольку отобраны представители популяции, имевшие относительно низкие результаты), а средний показатель тех, кто не окончил школу, снизится (поскольку отобраны представители популяции, имевшие относительно высокие результаты). Вновь регрессия может произвести заметный эффект, который не имеет ничего общего с эффектом изучаемой независимой переменной.
Рис. 4.2. Гипотетическое распределение результатов при первом предъявлении теста IQ
Рис. 4.3. Гипотетическое распределение результатов при повторном предъявлении теста IQ
Методы наблюдения
Прямое наблюдение поведения одновременно и наиболее ценный и наиболее сложный из методов психологического исследования. Поэтому я завершу эту главу обсуждением некоторых трудностей, связанных с наблюдением поведения.
Сначала нужно внести некоторую ясность. В определенном смысле, всякое исследование включает наблюдение поведения: как еще можно было бы оценить значение зависимой переменной? В ряде случаев регистрация поведения происходит практически, если не буквально, автоматическим образом. Реакции со стороны сердца могут фиксироваться на электрокардиограмме. Решая задачи, испытуемый может давать ответы, нажимая на кнопку, Достаточно взрослым испытуемым предлагаются опросники. Каковы бы ни были другие проблемы в таких исследованиях, проблема точности регистрации поведенческих реакций, как правило, не стоит.