Бизнес-разведка
Шрифт:
Поскольку факты, собираемые подобным образом, имеют простую структуру, то по ним достаточно легко построить причинно-следственную цепочку, например «К — продукт компании „А“ 1997 г.», «Д — технический директор компании „А“ с 1996 по 1998 годы», следовательно, можно создать новый факт: «Д руководил выпуском продукта К в компании „А“. Или при наличии факта „Н — сотрудник компании „А“ с 1995 года“ можно автоматически создать факт „Н и Д знакомы“, имеющий определенную степень достоверности, и попробовать продлить цепочку знакомств дальше.
Системный подход (метод мозаики) к обработке прессы можно проиллюстрировать следующим примером. В 30-е годы в Лондоне вышла книга эмигрировавшего в Англию немецкого журналиста Бертольда Якоба.
Еще один интересный пример можно найти в книге Г.Р. Берндорфа «Шпионаж». Накануне Первой мировой войны военную разведку Германии очень сильно интересовали данные об изменениях в итальянских береговых укреплениях. Для решения этой задачи в июле 1914 года в Милане было открыто бюро объявлений, которое выписывало практически все выходящие в Италии газеты, вплоть до самых мелких деревенских листков. Хозяйкой бюро являлась весьма эффектная дама — Анна Мари Лессер, больше известная под псевдонимом «Мадемуазель Доктор». Не тратя время на сон, она в течение нескольких суток, днем и ночью наносила на крупномасштабную карту Италии сведения из газетных объявлений военных комендатур о наборе персонала на земляные и бетонные работы. Более детально масштабы строительства оценивались по месту проведения работ агентами-маршрутниками.
Сегодня горячей порой сбора различной открытой информации являются предвыборные кампании кандидатов в законодательные и исполнительные органы власти. Интересен анализ публикаций «за» и «против» различных кандидатов, фиксация факта поддержки того или иного кандидата. При квалифицированном сборе и компьютерной обработке информации в ИБД можно выстроить очень интересные схемы, особенно четко это можно отследить в регионах, где вопросам оперативного легендирования уделяют значительно меньше внимания, чем в центре. Так, установление взаимосвязей по предвыборным штабам и партийным спискам позволяет заранее выявить возможный расклад групп «поддержки» того или иного хозяйствующего субъекта в органах законодательной или исполнительной власти. Пример приведен в приложении 2.
Системы полнотекстного поиска
Сегодня рынок предлагает значительный перечень всевозможных поисковых утилит, программ и систем разного уровня. Программное обеспечение этого класса бывает двух типов*. {Градский П. Поисковые системы. // Санкт-Петербургские ведомости //, 26 июня 2002 года; Дериев И. Особенности национального поиска. // Компьютерное Обозрение // № 15,17–23 апреля 2002. Уваров С. Ищущие да обрящут.www.cronos.ru}
Программные продукты использующие технологию прямого поиска, просто перебирают файлы и выполняют поиск в каждом из них. Недостатком этой технологии являются значительные временные затраты. Аналогичные утилиты традиционно присутствуют во всех операционных
1. Поисковик AVSearch. Если у вас совсем нет денег, то вам может помочь бесплатная программа Анатолия Вознюка — AVSearch (www.avtlab.ru). Однако этот программный продукт умеет работать только с текстовыми файлами и файлами формата RTF, правда во всех кодировках от СР866 до Unicode, что, в частности, обеспечивает «поддержку» и формата DOC, т. к. документы Microsoft Word исследуются как обычный текст. Программа осуществляет поиск во всех популярных архивах без использования внешних модулей. Ее интерфейс достаточно прост и удобен. В общем программа неплохая, но ее существенным недостатком является медлительность.
2. Поисковик SSScanner с достаточно высокой скоростью работает с документами Word, WordPerfect, PDF, HLP, а также с несколькими десятками языков и кодировок.
Имеется возможность нечеткого поиска (по контексту) с оценкой релевантности и формальный. Результаты отображаются в отдельном окне с выдержками из оригинальных документов. SSScanner стоит около $30, условно-бесплатная версия имеет ряд ограничений.
В настоящее время программы прямого поиска уходят на второй план, их активно вытесняют программные продукты, использующие технологию поиска с индексированием. Программное обеспечение этого типа просматривает и анализирует указанные текстовые файлы, создавая собственную базу данных («индекс»), по которой затем и осуществляется поиск. Индексирование -процесс достаточно длительный, но зато поиск занимает считанные секунды. До недавнего времени основными недостатками данного ПО считались продолжительность операции первичного создания индекса и дополнительный расход дискового пространства. Однако для мощных современных компьютеров это не существенно. Некоторое неудобство по-прежнему связано с необходимостью регулярного обновления индексов, однако и это не проблема.
Начнем свое рассмотрение этого сегмента рынка полнотекстовых поисковиков с западных образцов.
1. Поисковик Advanced Document Serverзанимает немного дискового пространства, распространяется бесплатно, имеет массу возможностей: поддержка документов Microsoft Office, PDF, некоторых баз данных; поиск в архивных файлах; встроенный Web-сервер для удаленного доступа. Правда, имеется одно существенное «но»: для работы почти с каждым форматом необходимо «родное» ПО. Для DOC — Microsoft Word, для XLS — Excel, для PDF — полноценный Adobe Acrobat, а также Internet Explorer, архиваторы и пр.
И если многие, кто работает с документами Word, используют само приложение (хотя у Microsoft есть и специальная программа просмотра), то для PDF этот принцип уже не подходит. Помимо этого, применение средств автоматизации OLE в данном случае крайне негативно сказывается на производительности.
2. Программное обеспечение Greenstone предназначено для создания «цифровых библиотек», что подразумевает нечто большее, чем просто поиск с предварительным индексированием по документам DOC, PDF и пр. Этот программный продукт создает каталог документов, конвертирует их в HTML-формат, обеспечивает к библиотеке удаленный доступ посредством броузера. Распространяется бесплатно, с исходными текстами. Правда, работает довольно медленно.
3. Поисковик dtSearch Desktop (автоматически распознает различные кодировки, в том числе и кириллические (за исключением KOI-8), а также пару десятков форматов файлов, среди которых стоит выделить DOC, XLS, RTF, PDF, DBX (Outlook Express), XML, плюс популярные базы данных (через ODBC). В БД и гипертекстовых документах возможен поиск по содержимому конкретных полей и тегов. Даже защищенные PDF индексируются, но получить их названия и другие атрибуты программа не может. Несомненным достоинством программы является поиск в архивах ZIP.