Чтение онлайн

на главную

Жанры

Журналистское расследование

Коллектив авторов

Шрифт:

В сети Интернет также применяются особые правила присвоения дополнительных поисковых терминов электронным документам. Отчасти они определяются языком гипертекстовой разметки документов, отчасти – традицией и этикетом, а кроме того – требованиями, которые предъявляют конкретные поисковые машины к оформлению индексируемых ими документов.

Примеры индексирования документов в конкретной и биографической базе данных

При индексировании документов используется два вида информационно-поискового языка: классификационные индексы и ключевые слова. При формировании базы данных индексирование осуществляется de visu –

по полному тексту исходного документа. Такой метод позволяет с помощью набора ключевых слов более полно и адекватно отразить содержание индексируемого документа, а набор ключевых слов по сути может выступать как вспомогательная аннотация документа. Например:

Шмелев К. С металлом в голосе // Мир денег. – 1998. – 15 апр. – С. 2.

Бандиты, вымогавшие цветные металлы у директора «Росвнештерминала» В. Бурова, представились «кобзоновскими».

Ключевыми словами здесь будут:

Цветные металлы. Вымогательство. Контрабанда. ОПГ – «кобзоновская». Кобзон И. Буров В. Иваньков В. = Япончик. Захаров А. = Захар.

Данный пример хорошо показывает, как можно избежать перегруженности аннотации и при этом не допустить потери информации.

Наиболее сложной частью работы по вводу документа в базу данных является выбор ключевых слов при индексировании этого документа. Эта трудность усугубляется отсутствием какой-либо нормализации лексики, используемой при работе над базами данных. Особую сложность вызывает выбор ключевых слов, отражающих названия учреждений, общественных организаций и т. п. С одной стороны, очевидно, что одному объекту должно соответствовать одно название, но с другой стороны – вольное обращение журналистов с обозначением этих объектов (а выбор ключевых слов происходит на основании текста публикации) приводит к тому, что в базе данных одному объекту соответствует несколько названий.

Например:

Ассоциация правовой защиты и реабилитации инвалидов,

Ассоциация социально-правовой защиты и реабилитации инвалидов,

Ассоциация по реабилитации и социальной поддержке инвалидов.

Это затрудняет пользователю поиск и может снизить его полноту. Поэтому, когда пользователь дает запрос на поиск информации, он тоже должен учитывать, что одно и то же учреждение или организация могут быть зафиксированы под разными названиями. Принятие во внимание этого фактора поможет снизить информационные потери, а в некоторых случаях сведет их до минимума.

Иногда из публикаций не всегда понятно, идет ли речь об одном объекте или это различные объекты со сходными наименованиями. Например:

Антимонопольное территориальное управление,

Антимонопольное управление,

Антимонопольный комитет.

Проблемой является и выбор ключевых слов, соответствующих названиям культовых зданий.

Какое ключевое слово предпочесть создателю базы и пользователю из следующего списка:

Собор Св. Петра и Павла,

Собор Петра и Павла,

Петропавловский собор,

Собор Св. апостолов Петра и Павла.

Порой трудно идентифицировать культовые здания, когда в исходной публикации используется слово «храм», а не «церковь» или «собор». Например, если в документе употреблено словосочетание «Никольский храм», то неясно, идет ли речь о Никольском соборе на площади Коммунаров или о Никольской церкви на улице Марата.

Пользователю при формулировании запроса необходимо помнить и о многочисленных переименованиях, начало которым положила перестройка. Например:

Театр им. Ленинского комсомола, см. Балтийский дом.

Необходимо учитывать при составлении запроса и те случаи, когда имеется два общепринятых названия одного объекта. Например:

Центральный выставочный зал, см. Манеж.

Кунсткамера, см. Институт антропологии и этнографии им. Петра Великого.

В настоящее время идет работа по отбору и систематизации ключевых слов, используемых при создании базы данных, что, безусловно, облегчит пользователю доступ к информации. Выявляются параллельные ряды, существующие в словаре, и для каждого ряда синонимов выбирается слово-представитель – дескриптор. Предполагается, что после завершения этого этапа работ индексирование будет по-прежнему осуществляться на основе текста публикации, но не непосредственно: термин или словосочетание, выбранное в качестве ключевого слова, которое попадает в словарь, будет сравниваться с контролируемым словарем и войдет в документ в той форме, которая в этом словаре зафиксирована.

Для журналиста, независимо от места его работы, электронные базы данных по-прежнему представляют самый оперативный источник новейшей информации. К тому же это еще наиболее экономичный источник. Но почти для всех журналистов поиск в электронных базах данных остается двухступенчатым процессом, и проводят они его не самостоятельно. У журналиста появляется идея статьи, библиограф переводит эту идею в параметры поиска, отбирает базу (или базы) данных, осуществляет поиск и передает результаты журналисту, который смотрит, соответствуют ли они запросу.

Полнота и точность полученной информации зависит не только и не столько от квалификации библиографа, сколько от того, как грамотно был сформулирован запрос журналистом. Например, журналист исследует проблему бензиновых кризисов, которые время от времени будоражат рынок. Из разных источников известно, что рынок нефтепродуктов и нефтеносителей в Санкт-Петербурге контролируется, в частности, «тамбовским» преступным сообществом. Известно также, что сильной стороной баз данных является их способность объединять несоизмеримые понятия с тем, чтобы избавить журналиста и библиографа от необходимости искать иголку в стоге сена, – вся информация, не имеющая отношения к делу, при этом исключается. Для одной части уравнения подбираются такие ключевые слова, как организованная преступность, ОПГ тамбовская, для другой – нефть, бензин, бензиновый кризис. В результате журналист получает миллион ссылок на опубликованные статьи, не отвечающие введенному запросу. Почему так происходит? Да потому, что «бензин» может относиться к бензоколонкам, «нефть» – к нефтедобыче и нефтяным компаниям, а словосочетание «организованная преступность» даст десятки статей, посвященных различным криминальным группировкам. Чаще всего это случается, когда поиск ведется в полнотекстовой базе данных и не ограничен, скажем, заголовками или аннотациями статей. Для того чтобы минимизировать «информационный шум» и информационные потери в данном конкретном запросе, необходимо отсечь лишние ключевые слова, скрестив только лишь понятия «ОПГ тамбовская» и «бензиновый кризис».

Поделиться:
Популярные книги

Сумеречный Стрелок 2

Карелин Сергей Витальевич
2. Сумеречный стрелок
Фантастика:
городское фэнтези
попаданцы
аниме
5.00
рейтинг книги
Сумеречный Стрелок 2

Не грози Дубровскому! Том Х

Панарин Антон
10. РОС: Не грози Дубровскому!
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Не грози Дубровскому! Том Х

Измена. Верну тебя, жена

Дали Мила
2. Измены
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Измена. Верну тебя, жена

Волк 2: Лихие 90-е

Киров Никита
2. Волков
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Волк 2: Лихие 90-е

Крестоносец

Ланцов Михаил Алексеевич
7. Помещик
Фантастика:
героическая фантастика
попаданцы
альтернативная история
5.00
рейтинг книги
Крестоносец

Законы Рода. Том 4

Flow Ascold
4. Граф Берестьев
Фантастика:
юмористическое фэнтези
аниме
5.00
рейтинг книги
Законы Рода. Том 4

Ученик. Книга третья

Первухин Андрей Евгеньевич
3. Ученик
Фантастика:
фэнтези
7.64
рейтинг книги
Ученик. Книга третья

Менталист. Эмансипация

Еслер Андрей
1. Выиграть у времени
Фантастика:
альтернативная история
7.52
рейтинг книги
Менталист. Эмансипация

Не грози Дубровскому! Том VIII

Панарин Антон
8. РОС: Не грози Дубровскому!
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Не грози Дубровскому! Том VIII

Столичный доктор. Том III

Вязовский Алексей
3. Столичный доктор
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Столичный доктор. Том III

Тринадцатый IV

NikL
4. Видящий смерть
Фантастика:
боевая фантастика
попаданцы
5.00
рейтинг книги
Тринадцатый IV

Возвышение Меркурия. Книга 3

Кронос Александр
3. Меркурий
Фантастика:
попаданцы
аниме
5.00
рейтинг книги
Возвышение Меркурия. Книга 3

Поход

Валериев Игорь
4. Ермак
Фантастика:
боевая фантастика
альтернативная история
6.25
рейтинг книги
Поход

Темный Патриарх Светлого Рода 4

Лисицин Евгений
4. Темный Патриарх Светлого Рода
Фантастика:
фэнтези
юмористическое фэнтези
аниме
5.00
рейтинг книги
Темный Патриарх Светлого Рода 4