Чтение онлайн

на главную

Жанры

Аналитика: методология, технология и организация информационно-аналитической работы

Конотопов Павел Юрьевич

Шрифт:

Допустим, что некое СМИ отслеживает события, влияющие на финансовую ситуацию в США. Вполне вероятно, что, используя технологию отбора по ключевым словам, такое СМИ упустило бы из вида первые оперативные сообщения о террористической атаке на здания Всемирного Торгового Центра. Действительно, совершенно не очевидно, что слова «захват» и «авиалайнер» должны присутствовать в перечне ключевых слов автоматизированной системы отбора сообщений, релевантных финансовой тематике. Упоминания же о возможности наступления финансовых последствий для США (в которых наиболее вероятно появление «финансовой» терминологии) в связи с этими событиями появились значительно позже — в аналитических сообщениях. Используя же технологию пополнения словаря на основе анализа частотно-ранговых распределений

слов и устойчивых словосочетаний, такое СМИ могло бы быстро отреагировать на изменение информационной обстановки (прежде, чем аналитик позаботится о внесении ключевого слова в словарь и снабдит его соответствующей интерпретантой).

Результат работы системы, использующей анализ потока сообщений для выявления повестки дня СМИ, может быть продемонстрирован на примере фрагмента карты семантических отношений для событий 11.09.2002.

Представленная на приводимом ниже рисунке карта семантических отношений получена с применением подхода, реализованного специалистами из Лаборатории по исследованию проблем организации, коммуникации и познания (LOCKS) при университете штата Аризона (Arizona State University, США). Подход получил наименование Centering Resonance Analysis (CRA), основан на применении статистического аппарата для анализа интенсивности откликов прессы. Он позволяет выделить термины, релевантные основной тематике сообщений, и семантические связи между ними на основе анализа частотно-рангового распределения как отдельных слов, так и их устойчивых сочетаний.

Степень актуальности той или иной темы определяется частотой упоминания терминов, описывающих ее, при этом может быть задано ядро семантической сети, вокруг которого в некотором диапазоне частот размещаются термины, связанные с ним и релевантные тематике сообщений.

Как видим, метод CRA позволяет выделить основные слова, служащие для обозначения основных объектов внимания прессы, отследить семантические связи между ними и степень устойчивости этих связей. А значит, локализовать ту предметную область, в которой происходят значимые или целенаправленно акцентируемые события, перенастроить словари, используемые для осуществления фильтрации сообщений.

Использование аналогичных методов на этапе формирования словаря позволяет придать словарям ключевых слов динамические свойства, обеспечить их релевантность текущей ситуации. Кроме того, могут быть активизированы именно те группы эталонов, которые могут попасть в рабочее подмножество в ходе дальнейшего развития ситуации. То есть, может быть сокращена размерность задачи перебора массива эталонных моделей и предварительно определен уровень детализации эталонных описаний, который, скорее всего, будет превышен в ходе дальнейшего освещения в источниках развития ситуации.

Заметим, что свое применение методы управления поисковыми и «ключевыми» словарями на основе анализа статистических распределений могут найти не только в секторе СМИ, служб мониторинга социально-политической, криминальной и военной обстановки, но и при проведении масштабных научных исследований, а также в бизнесе и финансово-экономической сфере. Одним из очевидных приложений является анализ эффективности рекламных кампаний и иные задачи, сопряженные с анализом больших массивов текстовой информации. Некоторые элементы такой технологии могут быть использованы при выработке направлений инновационной политики при проведении анкетирования сотрудников предприятия (как это делается на японских предприятиях, когда работникам предлагается в свободной форме высказывать предложения и пожелания по совершенствованию системы управления и технологического процесса).

Фиксация границ распознаваемых состояний

Казалось бы, дело сделано… После того, как сформированы эталонные модели и реализован алгоритм автоматического выделения текущих векторов признаков, задача распознавания ситуации решается относительно просто — методом сравнения текущей ситуации (вернее, ее вектора признаков) с эталоном. Однако и здесь есть проблема…

Поясним ее суть. Коль скоро мы ставим перед собой задачу распознавания ситуации, то мы вынуждены ее фиксировать на некоторый момент времени. В результате для системы распознавания она представляет собой состояние, характеризующееся некоторым набором признаков. Задача состоит в том, чтобы это состояние было привязано к существующей модели, в большинстве случаев предстающей в виде набора связанных функциональными и логическими отношениями дискретных состояний системы. То есть, вектор текущего состояния системы в результате поочередного сравнения с состояниями, помещенными в узлах модели (эталонами), должно быть классифицирован и отнесен к некоторой «окрестности» узла. Задача сложная, даже если представить себе, что анализу подвергается поток сообщений, релевантных тематике исследования.

Соответственно, границы каждого состояния, зафиксированного в модели, должны быть некоторым образом описаны, что крайне сложно сделать без четких критериев (особенно, если значения многих параметров описываются терминами естественного языка). Должны существовать критерии, которые позволили бы определить где в данном конкретном случае пролегает граница между «много» и «мало» и методы, с помощью которых эти слова приобретают свойства терминов, с заданной точностью описывающих значение параметра.

Почему мы все время вращаемся вокруг проблем, связанных с использованием естественного языка? — Это легко объяснить: аналитика практически никогда не имеет дела с чисто техническими феноменами (хотя там тоже следует выделять некие границы критических состояний). В результате многие сведения о системе представляются в виде лингвистических переменных — именно таких переменных, относительно значения которых существует лишь некая оценка, полученная либо в результате предварительно проведенного анализа значения представительной выборки сходных высказываний о феноменах, подобных рассматриваемому, либо в результате экспертного опроса ограниченной группы экспертов, чей опыт полагается гарантией точности. Соответственно, при появлении на входе системы анализа слова «несколько» можно с некоторой вероятностью утверждать, что это слово соответствует значению, лежащему в пределах диапазона от четырех до десяти (но этот пример достаточно прост, и поэтому он создает иллюзию легкости, с которой может быть определены квантитативные параметры для каждого слова естественного языка).

Это означает, что система не только должна располагать иерархически организованным тезаурусом, но и набором метрик, обеспечивающих возможность сравнения однотипных феноменов, описываемых различными наборами терминов. Существует два полярных подхода к введению границ значения — аналитический (о котором мы только что говорили) и директивный, когда аксиомы формулируются по произволу некоторого лица. Логическое обоснование этих аксиом невозможно, однако существует возможность логическими средствами определить целостность и непротиворечивость предложенной системы. Между этими полюсами лежит множество альтернативных подходов — от синтеза дискретных шкал, маркированных терминами, до адаптивных алгоритмов коррекции системы аксиоматических утверждений, на начальном этапе установленных по произволу, а далее — настраиваемой (обучаемой) тестовыми последовательностями.

А как быть в случае, когда осуществление метризации не представляется возможным, а потребность в фиксации факта смены состояния все-таки существует? — Одним из путей является переход от терминов, с той или иной точностью обозначающих качество или количество (а значит, обладающих некоторой метрикой и точностью), к терминам, которые могут принимать только значения «истина» или «ложь», к числу которых могут быть отнесены термины, выполняющие предикативные функции (отглагольные существительные, глаголы, причастия, деепричастия и соответствующие концепты, выражающие их сущность). Точность описания состояния снижается, однако вероятность пребывания системы в определяемом такими терминами состоянии оказывается значительно выше.

Поделиться:
Популярные книги

Пустоцвет

Зика Натаэль
Любовные романы:
современные любовные романы
7.73
рейтинг книги
Пустоцвет

Варлорд

Астахов Евгений Евгеньевич
3. Сопряжение
Фантастика:
боевая фантастика
постапокалипсис
рпг
5.00
рейтинг книги
Варлорд

Мастер...

Чащин Валерий
1. Мастер
Фантастика:
героическая фантастика
попаданцы
аниме
6.50
рейтинг книги
Мастер...

Магнатъ

Кулаков Алексей Иванович
4. Александр Агренев
Приключения:
исторические приключения
8.83
рейтинг книги
Магнатъ

Я не князь. Книга XIII

Дрейк Сириус
13. Дорогой барон!
Фантастика:
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Я не князь. Книга XIII

Жандарм

Семин Никита
1. Жандарм
Фантастика:
попаданцы
альтернативная история
аниме
4.11
рейтинг книги
Жандарм

Поход

Валериев Игорь
4. Ермак
Фантастика:
боевая фантастика
альтернативная история
6.25
рейтинг книги
Поход

Идеальный мир для Лекаря 10

Сапфир Олег
10. Лекарь
Фантастика:
юмористическое фэнтези
аниме
5.00
рейтинг книги
Идеальный мир для Лекаря 10

Идеальный мир для Социопата 4

Сапфир Олег
4. Социопат
Фантастика:
боевая фантастика
6.82
рейтинг книги
Идеальный мир для Социопата 4

Мама из другого мира. Дела семейные и не только

Рыжая Ехидна
4. Королевский приют имени графа Тадеуса Оберона
Любовные романы:
любовно-фантастические романы
9.34
рейтинг книги
Мама из другого мира. Дела семейные и не только

Младший сын князя

Ткачев Андрей Сергеевич
1. Аналитик
Фантастика:
фэнтези
городское фэнтези
аниме
5.00
рейтинг книги
Младший сын князя

Лучший из худших

Дашко Дмитрий
1. Лучший из худших
Фантастика:
фэнтези
попаданцы
5.25
рейтинг книги
Лучший из худших

Санек 2

Седой Василий
2. Санек
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Санек 2

Маленькая слабость Дракона Андреевича

Рам Янка
1. Танцы на углях
Любовные романы:
современные любовные романы
эро литература
5.25
рейтинг книги
Маленькая слабость Дракона Андреевича