Основы регрессионного моделирования для психологов
Шрифт:
Аппроксимация регрессией – приближенное аналитическое (формульное) выражение регрессии по ряду пар значений.
Обращаем внимание на две существенные детали.
Первая деталь не связана с методологическими аспектами науки психологии, а характерна для регрессионного анализа в любой научной дисциплине (технике, экономике, социологии и т. д.). Она заключается в том, что, усредняя значения зависимой переменной в результате проведения регрессии, мы потеряли какую-то часть информации, которая отражена в стохастической связи, но приобрели что-то очень важное – возможность численно моделировать зависимую переменную по значениям независимой переменной.
Вторая деталь, как следствие первой, связана
1.2. Регрессионные модели и математические модели
Термин «регрессия» был предложен Ф. Гальтоном в конце XIX в. Он обнаружил, что дети родителей с высоким или низким ростом обычно не наследуют выдающийся рост, и назвал этот феномен «регрессия к посредственности». Сначала этот термин использовался исключительно в биологическом смысле. После работ К. Пирсона его стали использовать и в статистике. Регрессионный анализ – метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и одной или нескольких независимых переменных (объясняющей переменной). Исследование зависимости случайных величин приводит к моделям регрессии и регрессионному анализу на базе выборочных данных.
Регрессионная модель f(w, x) – это семейство математических функций, задающее отображение f: W x X – > Y,
где: w W – пространство параметров;
x X – пространство независимых переменных;
Y – пространство зависимых переменных.
С точки зрения возможности формализации закономерностей, в том числе и в психологии, необходимо различать математические модели и регрессионные модели.
Математическая модель предполагает участие аналитика в конструировании функции, которая описывает некоторую известную закономерность. Математическая модель является интерпретируемой – объясняемой в рамках исследуемой закономерности. При построении математической модели сначала создается параметрическое семейство функций, затем с помощью измеряемых данных выполняется идентификация модели – нахождение ее параметров. Известная функциональная зависимость объясняющей переменной и переменной отклика – основное отличие математического моделирования от регрессионного анализа. Недостаток математического моделирования состоит в том, что измеряемые данные используются для верификации, но не для построения модели, вследствие чего можно получить неадекватную модель. Также затруднительно получить модель сложного явления, в котором взаимосвязано большое число различных факторов 4 .
4
Стрижов В. В. Методы индуктивного порождения регрессионных моделей. М.: ВЦ РАН, 2008.
Регрессионное моделирование –
Уравнение регрессии – математическая функция, которая выражает связь между усредненными значениями одной зависимой переменной и одной или несколькими независимыми переменными.
Регрессионная модель объединяет широкий класс универсальных функций, которые описывают некоторую закономерность. При этом для построения модели в основном используются измеряемые данные, а не знание свойств исследуемой закономерности. Такая модель часто малоинтерпретируема, но более точна. Это объясняется либо большим числом моделей-претендентов, которые используются для построения оптимальной модели, либо большой сложностью модели.
Нахождение параметров регрессионной модели называется обучением модели.
Недостатки регрессионного анализа по сравнению с математическим моделированием:
– модели, имеющие слишком малую сложность, могут оказаться неточными;
– модели, имеющие избыточную сложность, могут оказаться переобученными.
Примерами регрессионных моделей являются: линейные функции, алгебраические полиномы, ряды Чебышёва, нейронные сети без обратной связи (например, однослойный персептрон Розенблатта), радиальные базисные функции и т. д.
Примерами математических моделей являются: математические модели на основе теории игр, модель «хищник – жертва», модель маятника и т. д.
1.3. Зависимая и независимая переменные и регрессионный анализ
Студенты-психологи при формулировке эмпирических гипотез научного исследования достаточно часто выдвигают предположение об одностороннем влиянии одной переменной на другую. В самой гипотезе это проявляется в выражениях типа: «переменная х является причиной переменной у», или «переменная х определяет переменную у», или «переменная х является основанием для переменной у».
Но в проверке такого рода гипотез допускают две методологические ошибки. Во-первых, забывают о том, что проверка такого рода гипотез возможна только через эксперимент.. В научных исследованиях изучить влияние одной переменной на другую, определить наличие каузальной связи и попытаться найти ее количественное выражение можно только с помощью одного метода – эксперимента. Изучение методологии, границ применимости и технологии проведения эксперимента в психологии составляет задачу другой дисциплины – экспериментальной психологии. Мы только заметим, что сегодня в психологии, в отличие от конца XIX – начала XX в. (тогда в психологии господствовал эксперимент), проводится достаточно мало экспериментальных исследований, и те, как правило, имеют статус квазиэксперимента. В реальности же в эмпирических исследованиях (особенно в студенческих научных исследованиях) имеют место одномоментные тестовые срезы двух или нескольких переменных с последующей статистической обработкой.
Во-вторых, степень влияния одной переменной на другую связывают с проведением корреляционного анализа и последующей интерпретацией коэффициента корреляции. Следует всегда помнить, что корреляция показывает взаимосвязь, но не влияние.
Можно ли в такой ситуации однозначно определить каузальную (генетическую) связь на основе статистической обработки данных? Ответ – категорическое нет. Но меры влияния одной переменной на другую статистическими методами определить можно. И, сравнив между собой эти меры, можно с определенными оговорками определиться, какую переменную лучше использовать в качестве объясняющей (независимой), а какую – в качестве объясняемой (зависимой).