Чтение онлайн

на главную

Жанры

Аналитика: методология, технология и организация информационно-аналитической работы

Конотопов Павел Юрьевич

Шрифт:

1. Задачи преобразования неструктурированного ЕЯ-текста в ЕЯ-текст с разбиением на рубрики;

2. Задачи преобразования ЕЯ-текста с разбиением на рубрики в структурированный ЕЯ текст с элементами логического формализма;

3. Задачи преобразования структурированного ЕЯ текста с элементами логического формализма в символьную модель, использующую формализм теории графов с ЕЯ-маркировкой вершин (узлов) и связей (дуг);

4. Задачи преобразования символьной модели, использующей формализм теории графов с ЕЯ-маркировкой вершин (узлов) и связей (дуг), в символьную модель, использующую формализм теории графов с ИЯ-маркировкой вершин (узлов) и связей (дуг);

5. Задачи преобразования символьной модели, использующей формализм теории графов с ИЯ-маркировкой вершин (узлов) и связей (дуг), в строгую символьную ИЯ-модель.

В принципе, уже после решения задачи второго типа, может осуществляться переход от ЕЯ-представлений к некоторой

промежуточной системе обозначений (имен), как это делается при разработке программ. Однако такой переход имеет смысл только при условии, что уже произведена декомпозиция на элементарные термины, выражающие свойства и функции объектов, с тем, чтобы в дальнейшем для них не потребовалось осуществлять процедуру восстановления ЕЯ-представления. Если это условие выполняется, то становится возможен даже автоматизированный переход от промежуточной системы имен к ИЯ-представлению (при условии существования тезауруса соответствующего уровня). В общем же случае, операция детальной декомпозиции осуществляется лишь при решении задачи четвертого типа. Впрочем, жесткий стандарт здесь установить трудно, да и не может он быть жестким, поскольку специфику алгоритма структуризации определяют цели деятельности.

Более того, в случае, когда достигнутая степень формализации не удовлетворяет требованиям, предъявляемым спецификой деятельности, полученное формальное описание может быть повторно подвергнута процедурам, которые ранее осуществлялись в отношении представления иного типа.

Заметим, что структурированию может подвергаться и информация, представленная в нетекстовом виде, однако и здесь могут быть выделены задачи, по своему содержанию равносильные перечисленным.

Например, рассматривая в качестве исходного массива данных массив графических изображений различных фрагментов некоторого объекта/процесса, относящихся к разным моментам времени и полученных с разных ракурсов, можно решить задачу структурирования, воспользовавшись теми же этапами/задачами. Для чего можно воспользоваться одной из двух стратегий:

— осуществить предварительную трансляцию в текстовую форму (составление подробных описаний изображений на ЕЯ с указанием пространственных и временных отношений между описываемыми объектами), после чего воспользоваться ранее описанными процедурами;

— интерпретировать изображение, как разновидность текста, с применением альтернативной знаковой системы, позволяющей осуществить процесс структуризации в другой знаковой системе.

В качестве теоретического основания для применения такого подхода выступает семиотика, интерпретирующая любой способ представления информации как разновидность текста, представленного средствами некоторой знаковой системы. Для графического представления информации разработан ряд методов, позволяющих перейти от обычного цветного тонального изображения к контурным и иным представлениям, упрощающим процедуры распознавания и трансляции к иным знаковым системам. Однако, поскольку графические модели, получаемые методом последовательной фиксации состояния объектов реального мира, способны отражать лишь пространственно-временные и атрибутивные характеристики наблюдаемых объектов/процессов, постольку извлечение из них системы причинно-следственных отношений становится возможным только с привлечением внешней (чаще всего — экспертной) модели интерпретации.

Наиболее распространенным путем решения задач структуризации информации является привлечение эксперта-аналитика. В этом случае на него ложится вся нагрузка по преобразованию исходного текста: от поиска связных фрагментов до выявления системы логических, пространственных, временных отношений и дальнейших процедур синтеза формальной модели. Хотя в последнее время, благодаря развитию семиотики, лингвистики, теории искусственных языков, теории систем искусственного интеллекта, нейрокибернетики и ряда других научных дисциплин, в эту отрасль стали все чаще вторгаться технологии если не автоматического, то автоматизированного анализа и структурирования информации. Среди такого рода технологий можно выделить системы автоматизированного реферирования текста, предназначенные для извлечения фрагментов текста, наиболее ярко выражающих сущность текста или его основные положения. Как правило [51] , эта операция осуществляется за счет применения статистических закономерностей, открытых Дж. Зипфом (George Kingsley Zipf) и получивших название принципа экономии усилий в лингвистике или закона Зипфа (или, более общей формулировке, закона Зипфа-Мандельброта).

51

Впрочем, рассматриваются и иные подходы, например, грамматический и логико-семантический подходы, привлекающие к процессу реферирования и структурирования текста присутствующие в нем метаязыковые (логические) термины, которые служат для связывания его семантических компонентов.

В зависимости от реализации статистические критерии могут применяться к тексту на раннем этапе (до грамматико-логической обработки текста), а могут и на завершающей стадии (после предварительной обработки, согласования словоформ и т. п.). Однако, в настоящее время без поддержки интерактивного режима (диалога с экспертом) качество реферирования достаточно низко и не всегда удовлетворяет потребителя. Вне зависимости от спектра технологий, используемых при анализе словоформ (формальные ли грамматики, нейросетевые ли технологии), результаты семантической обработки пока далеки от тех, которые в состоянии обеспечить эксперт, что отчасти объясняется тем, что любая из созданных на сегодня баз знаний, в известном смысле, наивнее ребенка. Причиной такой «наивности» является то, что механизмы обучения подобных систем и способы организации знаний в них несовершенны, а количество каналов приобретения знаний слишком мало. Существуют прототипы самообучающихся интеллектуальных систем, но до уровня интеллекта разумных существ эти системы пока не могут дорасти.

Однако оставим подробное рассмотрение этих вопросов специалистам в области теории систем искусственного интеллекта. Заметим лишь, что работы в области теории систем искусственного интеллекта действительно заслуживают того, чтобы с ними ознакомились люди, занятые в «сфере информационного производства». Чрезвычайно интересны эти работы хотя бы потому, что представляют собой попытки осмыслить то, каким образом человек осуществляет свою мыслительную деятельность, алгоритмизировать и упорядочить ее, что крайне важно и для эксперта-аналитика. Кроме того, нелишне хотя бы в общих чертах представлять, каким образом работает твой инструмент, каковы его параметры и особенности функционирования. Так, например, ряд направлений современной психологии выросли не из классической психологии, а из гибрида теории искусственного интеллекта, классической психологии и философской теории познания. И столь необычное происхождение этих психологических теорий, отнюдь, не мешает специалистам в этой области успешно решать задачи именно психологического плана.

Методы первичного структурирования информации широко используются при синтезе баз данных и подробно рассматриваются в разнообразных изданиях по информатике, в частности — тех, которые посвящены вопросам проектирования и разработки баз данных различного назначения [52] . В наиболее популярном и, в то же время, профессиональном изложении эти проблемы рассматриваются в книге американского автора Дэвида Васкевича [53] , написанной именно для тех людей, которые руководят деятельностью или формулируют задачи перед специалистами в области разработки программного обеспечения, но не обязаны вникать в технологические подробности процесса разработки. В частности, в книге Васкевича описываются различные способы организации и структурирования данных, виды отношений между ними, приведены наглядные примеры, что позволяет руководителю по ее прочтении квалифицированно руководить коллективом разработчиков и грамотно организовать технологический процесс. Но подчеркнем еще раз: для нас в этой книге содержится информация, связанная именно с проблемой структурирования информации.

52

Информатика: Учебник / Под ред. проф. Н.В.Макаровой. — М.: Финансы и статистика, 1997. — 768 с.

53

Васкевич Д. Стратегии клиент/сервер. Руководство по выживанию для специалистов по реорганизации бизнеса. — К.: Диалектика, 1996. — 384 с.

Нет ничего удивительного в том, что мы обращаемся к базам данных для того, чтобы проиллюстрировать процессы структурирования информации. Базы данныхэто тоже модели, описывающие те или иные аспекты существования системы/процесса, поэтому при их создании и проектировании так же применяются методы структурирования информации, отличающиеся от прочих методов лишь тем, что структурирование осуществляется уже с учетом ограничений, налагаемых технологической платформой. В общем случае при структурировании информации такие ограничения не всегда принимаются в расчет.

Поделиться:
Популярные книги

Я – Орк. Том 2

Лисицин Евгений
2. Я — Орк
Фантастика:
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Я – Орк. Том 2

Релокант

Ascold Flow
1. Релокант в другой мир
Фантастика:
фэнтези
попаданцы
рпг
5.00
рейтинг книги
Релокант

Хозяйка старой усадьбы

Скор Элен
Любовные романы:
любовно-фантастические романы
8.07
рейтинг книги
Хозяйка старой усадьбы

Восход. Солнцев. Книга VII

Скабер Артемий
7. Голос Бога
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Восход. Солнцев. Книга VII

Вечный. Книга III

Рокотов Алексей
3. Вечный
Фантастика:
фэнтези
попаданцы
рпг
5.00
рейтинг книги
Вечный. Книга III

Пистоль и шпага

Дроздов Анатолий Федорович
2. Штуцер и тесак
Фантастика:
альтернативная история
8.28
рейтинг книги
Пистоль и шпага

Калибр Личности 1

Голд Джон
1. Калибр Личности
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Калибр Личности 1

Король Руси

Ланцов Михаил Алексеевич
2. Иван Московский
Фантастика:
альтернативная история
6.25
рейтинг книги
Король Руси

Кодекс Охотника. Книга XXI

Винокуров Юрий
21. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Охотника. Книга XXI

Правила Барби

Аллен Селина
4. Элита Нью-Йорка
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Правила Барби

Мимик!

Северный Лис
1. Сбой Системы!
Фантастика:
боевая фантастика
5.40
рейтинг книги
Мимик!

Книга пяти колец. Том 3

Зайцев Константин
3. Книга пяти колец
Фантастика:
фэнтези
попаданцы
аниме
5.75
рейтинг книги
Книга пяти колец. Том 3

Защитник. Второй пояс

Игнатов Михаил Павлович
10. Путь
Фантастика:
фэнтези
5.25
рейтинг книги
Защитник. Второй пояс

Золушка по имени Грейс

Ром Полина
Фантастика:
фэнтези
8.63
рейтинг книги
Золушка по имени Грейс