Аналитика: методология, технология и организация информационно-аналитической работы
Шрифт:
Введение в модель трансляции иерархического тезауруса, позволяет использовать шкалу уровня абстракции, с помощью которой потребитель сообщений сможет управлять степенью детализации информации. Например, нормализованный иерархический тезаурус, состоящий из трех уровней, позволяет описывать некоторое состояние параметра (имя параметра) в терминах, определенных на трех уровнях иерархии. Термин «нормализованный» в применении к этому тезаурусу указывает на то, что между термином и состоянием может быть установлено взаимно однозначное соответствие, то есть, ни в одном высшем уровне абстракции не существует такого термина, границы области определения которого не совпадают с одной из границ области определения терминов низшего уровня. В языках естественного общения такое требование
Модели трансляции в принципе могут быть построены для любой предметной области, для которой в языке естественного общения существует разработанная терминология, которая может быть спроецирована на пространство формальных признаков (модель фрагмента реальности). К числу предметных областей поддающихся трансляции в терминологическую систему относится, в том числе, и пространственная семантика. В частности, этот принцип используется в географии при именовании объектов, размещение которых может быть отображено на некоторой модели.
Большим преимуществом структурированных текстовых данных перед неструктурированными тестовыми данными является возможность их перевода к графическому представлению, которое, как известно, способно стимулировать мыслительную деятельность, а также позволяет в сжатом виде выразить большое количество информации. То есть, модели трансляции могут использоваться и для обратного преобразования, однако точность такого преобразования довольно низка и определяется количеством терминов, включенных в состав модели трансляции. При этом существует проблема совместимости тезауруса источника и модели трансляции.
Благодаря своим уникальным свойствам модели трансляции являются весьма полезным инструментом при работе как с текстами различной тематики, так и при работе с источниками числовых и структурированных данных.
5.4 Анализ информативности источников
При рассмотрении технологии поиска, отбора и экспресс-анализа мы не касались проблемы анализа информативности источников. Между тем, задачи анализа информативности источников чрезвычайно важны, поскольку напрямую связаны с вопросами эффективности ИАР.
Наиболее распространенным подходом к анализу информативности источника является подход, основанный на определении отношения числа сообщений, релевантных проблеме исследования, к общему числу сообщений, однако такой подход не всегда приемлем. Например, если некий источник функционирует в соответствии с известным графиком и в установленное время предоставляет релевантные данные, его информативность в соответствии с описанным подходом может оказаться крайне низкой. Но если учесть возможность отслеживания данных только на заданном интервале времени, то при разумной организации работ информативность окажется намного выше, нежели у многих других источников, передающих релевантные данные в непредсказуемый момент времени.
Другой аспект проблемы оценивания информативности связан с характером данных и категорией потребителя (в том числе, его ценностной ориентацией и финансовыми возможностями). Допустим, что, действуя по поручению некого штаба предвыборной кампании, ваша организация решает задачу определения предвыборной тактики гипотетического соперника заказчика, пытающегося «оседлать» малоимущие слои населения. Если в интересах решения задачи вы без разбора закупаете все множество местных газет, то наиболее вероятно, что большую часть денег вы тратите понапрасну. Ведь соперник вашего кандидата тоже ограничен в средствах, и постарается оптимизировать затраты, а значит, он не станет размещать свою предвыборную агитацию в дорогих изданиях (на них придется минимум средств из его бюджета), а будет ориентироваться на дешевые, но содержательные, либо на бесплатно распространяемые газеты, публикующие программу телепередач. Информативность таких газет в целом (в пересчете на количество статей) может оказаться невысокой, но релевантные данные будут встречаться регулярно (из номера в номер).
Можно привести похожий пример, но из сферы бизнеса: едва ли имеет смысл скупать всю региональную прессу для получения суточной сводки биржевых котировок — для того есть специальные колонки в солидных газетах (а тем более — в ГСТК Интернет и «за бесплатно»). И наоборот… Всем известно, что реклама — двигатель прогресса, что стоит она недешево, и что существуют определенные требования к числу показов рекламы для того, чтобы объект рекламы отпечатался в памяти потребителя. Пусть перед вами стоит задача установления системы целей и коэффициентов их важности для некого рекламодателя… Вот здесь вам, действительно, стоит изучить весь массив региональной прессы, дабы установить рекламную политику объекта: состав привлекаемых СМИ, стоимость размещения рекламного блока, слои населения, потребляющего продукцию данного СМИ. Возможно, вам придется сымитировать попытку размещения рекламы в СМИ и изучить предлагаемую их рекламным отделом тактику проведения рекламной кампании… то есть, бизнес-разведка в чистом виде. А на выходе — сведения о бюджете рекламной кампании, оценка приоритетов конкурента и иные полезные сведения.
Таким образом, любая организация, работающая в сфере ИАО и борющаяся за повышение качества своей информационной продукции, помимо прочих работ должна осуществлять:
— непрерывные поисковые мероприятия в интересах определения круга источников информации по своей специфике;
— проводить активный поиск и отслеживать периодически обновляемые информационные ресурсы телекоммуникационных сетей;
— располагать классификацией аудитории и вести работы по установлению типа аудитории того или иного средства массовой информации.
По существу, на момент получения очередной задачи субъект ИАР должен располагать готовой гипотезой о составе и характере источников, потенциально представляющих интерес для проведения исследований в своей «зоне ответственности». Для освоения новой области исследований полезны различные методы активизации мыслительной деятельности от «метода кроссворда» до мозговых штурмов и исследований технического плана.
Но не все так просто: существует ряд проблем, связанных с процессом оценки информативности, да и с процессом анализа и интерпретации текстовых данных в целом. Как это ни странно, но при решении этих проблем компьютерные системы способны оказать чуть ли не большую пользу, чем эксперт-аналитик. В том числе, речь идет и о проблемах эмоциональной аттестации текстов и выявлении скрытых противоречий и недомолвок во внешне нейтральных и непротиворечивых текстах, а также о проблеме поддержания целостности и стабильности модели мира аналитика.
5.5 Проблема активной фильтрации сообщений
Одним из наиболее распространенных путей добывания информации в сфере средств массовой информации является использование каналов межличностных коммуникаций (хотя, «метод потолка и пальца» в СМИ еще никто не отменял). Система межличностных связей бывает крайне сложной, и на пути к потребителю информация проходит через сложную цепочку связей, выполняющую роль активного фильтра.
Работа с сообщениями вторичных источников имеет свою специфику, заключающуюся в том, что относительная простота получения доступа к ним сочетается с крайней сложностью интерпретации данных, получаемых от них. Характерной особенностью современной информационной обстановки является экспоненциальный рост числа вторичных источников информации по отношению к первичным. В создавшихся условиях аналитические службы уже не могут пренебрегать такой важной характеристикой канала распространения информации, как ценностная ориентация вторичного источника или их совокупности. Это приводит к тому, что все больший вес приобретает задача оценивания и «аттестации» источников. Важность этой задачи легко проиллюстрировать с помощью представленного на рисунке примера отображения исходного сообщения первичного источника А0 в сообщения А1 и А2 вторичных.