Аналитика: методология, технология и организация информационно-аналитической работы
Шрифт:
Исследования специалистов в области инженерной психологии, специализирующихся в области разработки сложных автоматизированных систем управления, показывают, что смена интерфейса информационной системы или способа представления информации приводит к возникновению дезадаптационного стресса. При работе с текстами событием, аналогичным смене интерфейса, является смена стиля изложения материала. По своему воздействию на потребителя сообщений смена стиля изложения сопоставима со сменой интерфейса информационной системы и также приводит к возникновению у аналитика стрессовых состояний, более того, в некоторых случаях она может привести к потере способности к восприятию текста. Это позволяет выделить проблему преодоления композиционной и стилистической неоднородности сообщений в отдельный класс проблем ведения
Вполне естественно, что проблема преодоления стилевой и композиционной специфики сообщения представляет собой не меньшую трудность для компьютерных систем. Однако, коль скоро для рассматриваемых приложений речь не идет о понимании сообщения в привычном для человека смысле этого слова, для компьютерных приложений данная проблема предстает в своем «рафинированном» виде. Это означает, что на начальных этапах анализа текста рассмотрение функций прагматического характера, возлагаемых автором сообщения на композиционную и стилистическую специфику порождаемого им текста, может быть вынесено на другой уровень интерпретации текста.
По существу, процесс преодоления стилевой и композиционной специфики может быть сведен к двум относительно независимым процессам: процессу приведения отдельных высказываний к стандартизованной грамматической форме (этот процесс может быть назван также процессом редукции, приведения к канонической форме) и процессу связывания повествовательных микро- и макростратегий. Поскольку прагматическая составляющая текста, порождаемого в ходе информационного взаимодействия (ИВ), зачастую заключена в его эмоциональной компоненте, постольку попутно с приведением сообщения к стандартизованной форме должна решаться и задача выявления и протоколирования интонационных, композиционных и иных особенностей текста.
В результате преобразования сообщений к формальному представлению, при котором они приобретают вид логически связанной совокупности высказываний, сообщения становятся пригодны для последующего применения алгоритмов автоматизированной аналитической обработки сообщений, в том числе — для алгоритмов анализа логической непротиворечивости потока сообщений. К формализованным сообщениям, использующим каноническое представление текста, предъявляются следующие требования:
— каждое предложение текста должно содержать одно и только одно высказывание установленной структуры (например, субъект-предикат-объект или иной, более сложной, субъект-[ресурс]-предикат-[инструмент] — объект-[результат]);
— ни одно высказывание не должно содержать конструкций ссылочного типа (терминов подстановки), именуемых анафорическими конструкциями;
— все логические отношения, используемые в естественно-языковых высказываниях, должны быть приведены к установленной (канонической форме), исключены реверсивные формы временных и причинноследственных отношений (например, фраза «событие X произошло по причине того, что произошло событие Y» должна быть преобразована к виду «по причине того, что произошло событие Y, произошло событие X», что позволяет перейти к утверждению «событие Y есть причина события X»);
— терминология в рамках сообщения должна быть приведена к эталонному лексикону, построенному на основе лексикона сообщения с привлечением системного тезауруса и с сохранением исходного уровня конкретизации атрибутов сущностей, упоминаемых в сообщении.
Столь строгие ограничения, налагаемые на способ представления текста, предоставляют ряд преимуществ при анализе текста, приобретаемые за счет высокой степени его формализации.
Так, например, одним из важнейших преимуществ является возможность автоматизированного анализа логических отношений между компонентами высказываний. Канонизированный текст может быть подвергнут процедуре анализа внутренней непротиворечивости с применением логики естественных рассуждений91, которая может рассматриваться либо в базисе положений алгебры множеств и теории графов, либо в базисе теории частично упорядоченных множеств с квазидополнениями. При этом элементарные высказывания выступают в качестве аксиом полисиллогизма (системы логических утверждений, в которой количество исходных посылок превышает два), образованного их совокупностью, данной в тексте. Поскольку текст не всегда содержит полное множество высказываний, достаточных для производства вывода, при интерпретации текста могут привлекаться знания, имеющиеся в системе на момент его анализа.
Более того, канонизированный текст может быть охарактеризован уникальным лексическим спектром, отображающим его тематику, что позволяет использовать при анализе массивов текстов методы, сходные с методами распознавания сигналов. Спецификой лексического спектра является то, что в качестве аналога частотной оси для него выступает шкала тезауруса источника сообщений, а в качестве метафоры энергии — отношение числа употреблений термина к общему числу терминов в тексте.
Статистические характеристики канонизированного текста (такие, как частотно-ранговое распределение длин терминов, традиционно используемое при статистическом анализе текстов) приобретают вид, отличный от вида аналогичных характеристик обычного текста. За счет того, что в канонизированном тексте отсутствуют термины, используемые в обычном (стилистически корректном) тексте для построения анафорических конструкций (отсылок к предыдущим фрагментам текста), в подвергаемую статистическому анализу выборку попадают и те употребления терминов, которые ранее не могли быть учтены из-за того, что подстановочные конструкции (например, анафорические местоимения) традиционно включаются в перечень слов, исключавшихся из текста при проведении статистического анализа. В результате чего могут быть выявлены термины, действительно образующие структуру релевантности текста. В канонизированном представлении текста продолжают выполняться закономерности, выраженные в принципе лингвистической экономии Г.К. Зипфа, что делает полученный текст пригодным для выполнения процедуры автореферирования на основе анализа статистических характеристик. Однако статистические критерии здесь приобретают более объективный характер, благодаря восстановлению системы умолчаний, используемых источником сообщения с целью сокращения синтаксической избыточности.
Использование спектрального представления сообщений позволяет упростить процедуры построения (связывания) и отображения системы логических связей сообщений и событий, упоминаемых в сообщении и его контексте, а также построить развернутые во времени и пространстве системы связей с привлечением сообщений, образующих внешний контекст (исходящих от других источников).
Важной особенностью такого подхода является то, что с его применением могут быть построены модели двух типов:
— модели динамики потока сообщений;
— модели динамики событий.
В этом случае преобразованный массив сообщений может быть представлен в виде логико-лингвистической модели, в графической интерпретации приобретающей вид ветвящегося графа, где ветвления указывают на наличие логических противоречий, разрешение которых возможно с применением мажоритарных и иных методов.
Серьезной проблемой при проведении автоматизированного анализа с применением формально-логических методов является проблема неоднородности представления высказываний. Одни и те же сущности и отношения могут быть выражены в различных терминах, зачастую принадлежащих к разным уровням терминологической иерархии. Например, слова «автомобиль» и «грузовик», не являясь синонимами и имея различный объем понятия, в тексте могут означать одно и то же. Решению этой проблемы может способствовать применение иерархических тезаурусов. То есть, синтезируемые в ходе ИАР модели должны обладать возможностью применения к ним многоуровневого иерархического тезауруса, реализованного в виде совокупности семантических сетей, построенных в терминах различного уровня абстракции. За счет этого модели позволяют осуществлять над ними операцию смены уровня абстракции (общности) описаний и приобретают свойства масштабируемости во времени.
Ситуационные модели, полученные с применением таких представлений позволяют использовать для анализа непротиворечивости сообщений совокупность стандартизированных процедур формального логического анализа. Более того, методы решения полисиллогизмов, предложенные Б.А. Куликом, позволяют выявить факт неполноты системы аксиом и сформировать множество высказываний, которыми может быть дополнена аксиоматическая система, а также сформулировать полное множество логических выводов из системы посылок. Благодаря этому могут быть сформулированы задания на компенсацию неполноты массива исходных данных, а также определить комплекс противоречивых высказываний, сопоставить их с источниками и сформулировать гипотезу о степени достоверности сведений, поставляемых ими.