Метод. Московский ежегодник трудов из обществоведческих дисциплин. Выпуск 4: Поверх методологических границ
Шрифт:
Дискуссия о единстве или множественности органона научного познания, развернувшаяся на страницах ежегодника «МЕТОД», демонстрирует многие важные аспекты как применения математики и семиотики к изучению социального, так и развития этих наук в их познавательном потенциале. В этой статье мы обратимся к более техническим вопросам использования одной из ветвей математики – статистики – в прикладных исследованиях в области социальных наук (с акцентом на политологических изысканиях, обусловленным интересами и опытом авторов). Заметим, однако, что прикладная статистика не есть в чистом виде раздел математики, поскольку требует от специалиста не только и не столько способности формулировать и доказывать некоторые утверждения в форме теорем и даже не способности применять конкретные теоремы к решению отдельных задач, сколько готовности сочетать знание математических основ статистики с личным исследовательским опытом, эвристическим потенциалом тех или иных математических
Собственно, в самом выражении «обработка данных» заложена некоторая предумышленная осторожность: мы избегаем говорить об анализе данных – процессе намного более глубоком и выходящем далеко за рамки вычислительных операций, совершаемых либо вручную, либо с использованием специализированных компьютерных средств. Специалисты-статистики порой говорят о том, что анализ данных – это не наука, а искусство, требующее большого исследовательского опыта. Возможно, обозначение анализа как сферы искусства является следствием разъединения статистики (и шире – математики) и семиотики; их сочетание же в рамках исследовательской практики позволило бы вернуть анализ данных в поле науки. Подобные попытки, однако, предпринимаются чрезвычайно редко и представлены в периферийных для современной статистики журналах [Martynenko, 2003]. Этот факт лишь подчеркивает большую дистанцию, на которой расположились по нелепому стечению обстоятельств статистика и семиотика, и указывает на перспективность их сближения.
Решение обозначенной задачи, однако, осложняется нехваткой конкретных методик и техник, доступных для использования прикладными статистиками в рамках современной семиотики. По этой причине мы не ставим перед собой задачу какого бы то ни было синтеза этих областей знания как элементов органона (или различных органонов?), ограничиваясь демонстрацией широкого потенциала применения методов статистики для решения разнообразных задач в области социальных наук.
Современным исследователям доступно большое количество количественных и качественных данных. Они включают в себя межстрановые показатели, электоральную статистику, данные социологических опросов, психологических тестов, обследований организаций, тексты, экспертные оценки и др. В эмпирических политологических исследованиях для выявления характера и структуры взаимосвязей социальных явлений распространено применение методов математической статистики и эконометрики.
Все методы прикладной статистики могут быть разделены на два класса: описательных и моделирующих причинно-следственные связи явлений и процессов [King, Keohane, Verba, 1994, р. 7–8]. Спектр задач, которые они позволяют решить, довольно широк: от выявления зависимостей между признаками, которыми описываются некоторые объекты, классификации этих объектов, конструирования индексов до измерения латентных категорий и моделирования причинно-следственных связей и динамики процессов. Инструментарий многомерного статистического анализа и эконометрики предлагает большое количество методов разной степени сложности для решения таких задач, каждый из которых имеет определенные границы применимости, обусловленные совокупностью модельных допущений. Для выбора метода, адекватного сформулированной задаче, необходимо получить первичное представление о поведении изучаемых признаков, а в случае необходимости предварительно их концептуализировать, операционализировать и измерить.
Существуют две основные группы шкал измерения показателей (переменных): количественные и категориальные [Analysis of multivariate social science data, 2008, p. 8–10]. Переменные количественного уровня могут принимать как целые, так и дробные значения. Для них разница между двумя значениями по шкале является осмысленной величиной. К таким переменным относятся, например, росто-весовые показатели, число наступлений события, денежные единицы, проценты и доли и др., а также латентные показатели – интеллектуальные способности, демократия 34 , политическая культура и т.п., измеряемые только через моделирование. Признаки, измеренные в номинальных или порядковых (ординальных) шкалах называются категориальными. Обе шкалы позволяют распределить все наблюдения на категории (группы). Разница состоит в том, что в порядковой шкале упорядочение категорий разумно, скажем, уровня образования, а в номинальной шкале, например по признаку «страна рождения» или «пол», – нет.
34
Здесь
Математические методы обработки количественных и категориальных данных существенным образом различаются, поэтому определение типа шкалы, в которой измерены признаки, – обязательный этап анализа данных.
Заметим, что вне зависимости от типа шкалы во многих случаях характер генезиса признаков можно считать схожим: интересующие исследователя социальные явления мыслятся как стохастические, т.е. не являющиеся жестко детерминированными и испытывающие влияние множества случайных факторов. Например, результаты социологического опроса для выявления установок по отношению к мигрантам. На ответы могут влиять не только действительные установки опрашиваемого, но и самочувствие, погода, личные переживания, личность интервьюера, проводящего опрос. К анализу многих признаков, природа которых обусловлена как закономерностями, так и случайностью, может применяться инструментарий теории вероятностей и математической статистики.
Стохастический взгляд на исследуемые признаки предполагает, что конкретные наблюдения суть результаты реализации некоторого порождающего данные процесса, который в новой ситуации может привести к возникновению другого набора значений. Следовательно, имеющиеся данные – это только выборка из некоторой генеральной совокупности (некоторого закона распределения, характеризующего порождающий данные процесс). Иногда на первый взгляд неочевидно, что помимо полученной «выборки» есть еще какая-то генеральная совокупность. Например, если исследуется ВВП / человек в постсоветских государствах в 1991–2012 гг., то что считать генеральной совокупностью? В этой ситуации продуктивным может оказаться осознание того, что ВВП / человек – это результат взаимодействия множества экономических, демографических, социальных и природных процессов, значительное число которых носит недетерминированный характер. Следовательно, содержательно важной может быть задача отделения результатов экономических процессов от совокупности прочих (случайных) факторов. При такой постановке вопроса генеральной совокупностью может считаться множество значений, которые изучаемый признак мог принять на рассматриваемых объектах при данных характеристиках экономических процессов и совокупности влияющих случайных факторов.
К анализу многих признаков, природа которых обусловлена как закономерностями, так и случайностью, может применяться инструментарий теории вероятностей и математической статистики. Основной задачей, решаемой с помощью количественных методов, является инференция – получение вывода о характеристиках порождающего данные процесса на основе имеющихся выборочных данных. Наиболее широкое распространение получили два инструмента статистического вывода, речь о которых пойдет ниже: статистическое оценивание и проверка статистических гипотез.
Под статистическим оцениванием понимается установление приблизительного значения некоторого параметра генеральной совокупности на основе выборки. Сами оценки могут быть точечными (т.е. дающими на основе выборки конкретное числовое значение, которое считается достаточно близким к неизвестному параметру генеральной совокупности) или интервальными (так называемые доверительные интервалы, которые по выборке указывают не одно значение, а целый диапазон, в котором с некоторой, заданной исследователем, вероятностью, лежит неизвестный параметр распределения). При проверке статистической гипотезы исследователь сначала формулирует предположение про значение неизвестного параметра генеральной совокупности, затем устанавливает из этого предположения некоторое следствие, которое должно наблюдаться, если гипотеза верна, и не должно, если она ошибочна. Далее остается только узнать, наблюдается ли это следствие в данных или нет, и сделать вывод (конечно, не однозначный, а допускающий некоторую вероятность ошибки – ведь сами данные рассматриваются как результат случайного эксперимента).
Описанная логика работы с данными как результатами реализации случайных величин особенно естественна в случае количественных показателей, которые могут непосредственно отождествляться со случайными величинами. Так, случайной величиной можно назвать ВВП / человек в отдельном государстве, уровень безработицы, число респондентов в выборке, заявивших о поддержке некоторой реформы и др.
Основными числовыми характеристиками случайных величин, позволяющими описать данные в выборке, являются меры центральной (средней) тенденции и меры разброса относительно среднего. Они характеризуют распределение, которым описываются признаки, и могут способствовать выбору методов их анализа.