Чтение онлайн

на главную

Жанры

Аналитика: методология, технология и организация информационно-аналитической работы

Конотопов Павел Юрьевич

Шрифт:

Практика показывает, что этот класс источников обладает колоссальной информационной емкостью, другое дело, что «плотность» информации (коэффициент информативности данных) существенно варьируется от издания к изданию, от выпуска к выпуску, от программы к программе. Еще сложнее дело обстоит с релевантностью информации (ее свойством соответствовать текущим информационным потребностям субъекта): данных, содержащих релевантную информацию значительно меньше. А если учесть и иные ограничения, все более и более сужающие перечень источников и сообщений, то можно сделать вывод, что относительное количество сообщений, отвечающих потребностям управления некоторой конкретной системой в заданных условиях, крайне мало. К числу таких ограничений относятся: актуальность (возможность использования информации

для управления системой или процессом в их современном состоянии), своевременность (возможность использовать информацию в контуре управления с учетом быстродействия подсистемы доведения управляющих воздействий), точность, достоверность, непротиворечивость и иные. Соответственно при всем обилии информации, которая может быть в принципе извлечена из всей совокупности источников, доля информации, представляющей ценность для ИАР, направленной на достижение некоторой цели, относительно невысока.

Коль скоро мы решили, что в этом подразделе проблемы поиска, отбора и экспресс-анализа информации будут рассматриваться применительно к классу источников, использующих для представления информации языковые средства, то, в первую очередь, нам следует проанализировать состав этого класса и режимы коммуникации (коммуникационные ситуации). В типовой коммуникационной ситуации (при обмене информацией между производителем и потребителем информации в режиме реального времени) в качестве основных источников текстовой информации может выступать всего два типа систем: разумные (человек), интеллектуальные (системы искусственного интеллекта). Перечисленные системы способны самостоятельно генерировать новые тексты и информацию, то есть являются источниками и в узком, и в широком смысле, а также могут выступать в роли первичных источников текстовой информации. При наличии задержки в канале коммуникации речь идет о наличии промежуточного материального носителя информации, который обеспечивает возможность длительного хранения информации без внесения собственных искажений. Такие носители информации также могут рассматриваться в качестве источника информации, хотя сами не способны продуцировать информацию.

Чаще всего языковые средства коммуникации реализуют неоперативный режим коммуникации с использованием средств символьного представления информации (текстов). Поэтому, когда речь идет о неоперативной языковой коммуникации, в качестве источников принято рассматривать второй класс источников (материальные носители текстов). Если ввести строгие классификационные основания, то к классу источников, обеспечивающих неоперативные языковые коммуникации, следует причислять:

— источники неоперативной информации (хранилища, архивы и библиотеки, содержащие текстовые документы):

— на традиционных носителях символьных данных: бумага, фотопленка и т. д. (книги, журналы, реферативные журналы, газеты, рукописи, микропленки и иные);

— на нетрадиционных носителях символьных данных: магнитные ленты и диски, магнитооптические и оптические накопители ЭВМ, голографические накопители, электронные запоминающие устройства, сети ЭВМ различного уровня интеграции и т. д. (файлы, базы данных, хранилища данных, геоинформационные системы, глобальные, региональные и локальные сети ЭВМ и иные);

— источники оперативной информации (коммуникационные и связные системы, реализующие функцию коммуникации посредством передачи текстовых данных в символьном формате):

— воспроизводимые данные (зарегистрированные на материальных носителях, для которых существует возможность повторного воспроизведения), передаваемые в каналах связных и телекоммуникационных систем, основанных на различных физических принципах действия, в том числе, воспроизведенные методом оптической проекции и т. д.;

— невоспроизводимые данные (возможность регистрации которых на материальных носителях и повторного воспроизведения отсутствует по тем или иным причинам), передаваемые в каналах связных и телекоммуникационных систем, основанных на различных физических принципах действия, в том числе, воспроизведенные методом оптической проекции и т. д.

Источники информации, не воспроизводимой с требуемой степенью точностью, мы исключим из рассмотрения в силу их малой полезности, а также по причине того, что их поиск становится невозможным в силу отсутствия доступа к материальной копии. Впрочем, определив потенциального носителя таких данных или расположение материальной копии, возможно организовать доступ к материальной копии или носителю сведений, как, например, в случае захвата вражеского «языка», получения несанкционированного доступа к данным и иных случаях насильственного изъятия информации.

При наличии доступа к материальной копии информации (данным) всю совокупность доступных данных можно рассматривать в качестве источниковой базы проведения исследований. В этом случае, решив проблему согласования форматов представления, аналитик получает возможность применения комплекса информационных технологий к полученному массиву текстов. При этом, как мы уже указывали, аналитиком решается задача сжатия или обобщения информации, первыми этапами которой является отбор текстов, релевантных теме исследования, то есть — формирование специализированного массива текстов, которые имеют отношение к решаемой задаче.

При этом выделяются два класса источников, не рассматривавшихся в предложенной ранее классификации, а именно: класс источников неструктурированных текстовых данных и класс источников структурированных текстовых данных. При этом под текстом можно понимать и числа, как частный случай.

5.1 Неструктурированные текстовые данные

Наиболее доступным источниками информации на сегодня можно считать средства массовой информации и издания в диапазоне от художественной литературы и публицистики до специализированных научных изданий. Предположим, что в результате применения некоторого комплекса инструментальных средств вами получен неспециализированный массив текстовой информации на компьютерных носителях, обеспечивающий возможность применения разнообразных технологий обработки и анализа информации с применением программных и аппаратно-программных средств.

Также будем считать, что существует возможность оперативного пополнения этого массива за счет ресурсов глобальных, региональных и локальных телекоммуникационных сетей, подключения к ресурсам информационных агентств, а также получения текстов, публикуемых в электронных и обычных средствах массовой информации.

Такими возможностями на сегодня располагает большинство субъектов ИАР, обладающих возможностью подключения к ГСТК Интернет (Спринтнет, Гласнет, Релком, локальной вычислительной сети организации) и несложным комплектом технических средств, включающим в свой состав ЭВМ и периферийные устройства типа сканера, среднескоростного модема для аналоговых или цифровых каналов связи. Возможны и иные варианты комплектации, что в данном случае несущественно.

Задача состоит в том, чтобы осуществить над имеющимся массивом данных некие манипуляции, в результате которых будет получен специализированный массив каталогизированных и, возможно, аннотированных данных, необходимых для проведения дальнейших исследований.

Одним из вариантов решения задачи является использование неавтоматизированного режима поиска и отбора информации (в этом случае массив источников последовательно прочитывается на предмет поиска необходимой информации, и тексты, содержащие необходимые сведения подвергаются копированию/перемещению в некоторую область дискового пространства и/или каталогизации, при этом возможно параллельное аннотирование/комментирование текстов). Однако на достаточно больших массивах текстов такая технология представляется крайне трудоемкой и малоэффективной. Несмотря на то, что существуют технологии быстрого чтения, обеспечивающие человеку за счет оптимизации траектории перемещения точки фиксации зрения по носителю текста скорость чтения порядка 3000 знаков в минуту, эти технологии не могут сравниться с быстродействием, которое способны обеспечить компьютерные системы. Поэтому основное внимание мы сосредоточим на инструментальном обеспечении процессов поиска, отбора и экспресс анализа текстовых данных.

Поделиться:
Популярные книги

Аватар

Жгулёв Пётр Николаевич
6. Real-Rpg
Фантастика:
боевая фантастика
5.33
рейтинг книги
Аватар

Не отпускаю

Шагаева Наталья
Любовные романы:
современные любовные романы
эро литература
8.44
рейтинг книги
Не отпускаю

На границе империй. Том 7. Часть 5

INDIGO
11. Фортуна дама переменчивая
Фантастика:
боевая фантастика
космическая фантастика
попаданцы
5.00
рейтинг книги
На границе империй. Том 7. Часть 5

Падение Твердыни

Распопов Дмитрий Викторович
6. Венецианский купец
Фантастика:
попаданцы
альтернативная история
5.33
рейтинг книги
Падение Твердыни

Здравствуй, 1985-й

Иванов Дмитрий
2. Девяностые
Фантастика:
альтернативная история
5.25
рейтинг книги
Здравствуй, 1985-й

Довлатов. Сонный лекарь

Голд Джон
1. Не вывожу
Фантастика:
альтернативная история
аниме
5.00
рейтинг книги
Довлатов. Сонный лекарь

Я — Легион

Злобин Михаил
3. О чем молчат могилы
Фантастика:
боевая фантастика
7.88
рейтинг книги
Я — Легион

Газлайтер. Том 10

Володин Григорий
10. История Телепата
Фантастика:
боевая фантастика
5.00
рейтинг книги
Газлайтер. Том 10

Не верь мне

Рам Янка
7. Самбисты
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Не верь мне

Герцогиня в ссылке

Нова Юлия
2. Магия стихий
Любовные романы:
любовно-фантастические романы
5.00
рейтинг книги
Герцогиня в ссылке

Измена. Возвращение любви!

Леманн Анастасия
3. Измены
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Измена. Возвращение любви!

Последний Паладин. Том 4

Саваровский Роман
4. Путь Паладина
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Последний Паладин. Том 4

Я – Орк. Том 3

Лисицин Евгений
3. Я — Орк
Фантастика:
юмористическое фэнтези
попаданцы
5.00
рейтинг книги
Я – Орк. Том 3

Восход. Солнцев. Книга V

Скабер Артемий
5. Голос Бога
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Восход. Солнцев. Книга V