Чтение онлайн

на главную

Жанры

Журнал «Компьютерра» № 24 от 27 июня 2006 года
Шрифт:

Для объектов типа А определяются еще и связи – их 26 видов (скажем, «партнер», «конкурент», «руководитель», «контакт», «упоминает» и т. д.). Эти объекты – публичные политики, крупнейшие компании, политические партии и прочее, что постоянно на слуху и на виду.

Обработка категорий А и В идет в основном вручную, хотя большая часть сопутствующей технической работы автоматизирована (доверить программе оценку контекста по принципу позитив/негатив нельзя, а локализацию прямой речи и сопутствующей фотографии – обычно можно). «Прямая речь в документе бывает очень важна, – говорит Катя Солнцева. – Если хочешь посмотреть, как развивается компания, берешь прямую речь руководителя и сравниваешь:

что он обещал год назад и что обещает сегодня. Наличие фотографии полезно для исследований, в которых оценивается качество репутации».

Обработанная таким образом информация заносится в базу знаний (этот драгоценный ресурс хранится на защищенных всеми возможными способами серверах Data Fort) и после этого начинает учитываться в ответах на запросы.

В этих ответах рассчитывается также индекс информационного благоприятствования (ИИБ). Он учитывает массу факторов, связанных с упоминанием объекта: скажем, его роль в сообщении (уникален или перечислен в списке из десяти других), тональность оценки (позитив, негатив или нейтральность) и т. п. Формула расчета ИИБ сложна, как сложна и технология оценок, классификации подобных объектов с многочисленными атрибутами и – очень важно! – связями. Технология, используемая в системе, была разработана с участием известного математика, специалиста по классификации и статистическому анализу Юрия Благовещенского.

Именно благодаря этой технологии – надо подчеркнуть, что она не сводится к алгоритмам, заложенным в систему; выбор параметров классификации, методика их присвоения объектам, лингвистический анализ – все это тоже в конечном счете элементы технологии текст-майнинга – появляется возможность очень быстро получать ответы на сложные запросы к базе.

«Прочее», или В разведку

Для демонстрационного сеанса я попросил Катю поработать с давно знакомым «объектом», часто упоминаемым и на наших страницах – Российской академией наук.

Первым шагом был простой запрос списка публикаций, упоминающих РАН, с начала этого года (рис. 1). Их оказалось около пяти тысяч – включая и телесюжеты, которые можно было немедленно просмотреть. После этого мы заказали график динамики публикаций за тот же период, с разбивкой по неделям (рис. 2).

Полученная картинка выглядела не очень выразительно. Пики и спады были выражены нечетко, ясного представления о динамике общественного внимания к делам Академии они не давали. Вот тут мы и воспользовались одной из более сложных черт системы – запросили график числа публикаций, в которых Академия фигурировала в качестве главного объекта. Полученный по такому запросу рис. 3 был заметно более информативным. Как нетрудно заметить, он демонстрирует весьма четкие узкие пики, явно указывающие на серьезные события. Исследовать их все возможности не было, но щелкнув мышкой по самому позднему (он же самый высокий), мы взглянули на несколько появившихся на экране текстов, и сразу получили объяснение этому всплеску публикаций – в этот период прошли выборы новых академиков. С этим, как явствовало из тех же публикаций, была связана любопытная интрига с попыткой выдвижения в академики крупных бизнесменов и чиновников, чуть не приведшая к большому скандалу (Сергей Степашин, например, вежливо, но твердо отказался баллотироваться).

Следующий запрос – по каким рубрикам распределены упоминания Академии. И вот здесь нас поджидала маленькая сенсация. Полученную диаграмму вы видите на рис. 4. Оказывается, Академия наук чаще всего упоминается в наших СМИ в неведомых рубриках с собирательным названием «Прочее»! Там она фигурирует вдвое чаще, чем во второй по частоте категории – «Наука и образование», следующий по частоте контекст – «Власть», а процент упоминаний Академии как главного объекта статей по высоким технологиям находится уже где-то на уровне случайных колебаний.

Катю Солнцеву результат удивил – никогда еще запрос ни по одному значимому объекту не давал такой статистики. Получается, что СМИ чаще всего пишут об Академии по каким-то нечетким, малозначительным поводам – и, что хуже всего, никак не связанным с ее основными миссиями. Разумеется, полученный результат надо еще уточнять и более детально анализировать. Но сигнал, тем не менее, весьма отчетливый: общество не очень понимает, чем занимается Академия, и далеко не всегда связывает ее деятельность с вопросами науки и образования.

Следующий запрос – расклад по СМИ, упоминающим Академию (рис. 5). На первом месте – официоз (правительственная «Российская газета», «Парламентская газета»). Ведущие деловые издания пишут об Академии очень мало – скажем, «Ведомости» вообще не попали в список. Тест на позитив-негатив по тем же центральным газетам дал заметный перекос в сторону негатива (рис. 6) – но это вряд ли показательно, так как общее число таких сообщений очень мало – основная масса упоминаний оказалась просто нейтральной.

Ну а дальше мы попытались применить к собранной по академии статистике запросы как раз «разведывательного» характера. А именно, выбрав в качестве основного объекта Юрия Осипова [Вот пишу и думаю – а ведь и этот текст попадет в ту же самую базу, и тоже каким-то образом изменит статистику упоминаний и самой Академии, и ее президента…], Президента РАН, провели поиск по его «связям» с другими объектами – выстраивая при этом цепочки из двух промежуточных звеньев. Результат показан на рис. 7.

Очевидная интерпретация в данном случае невозможна – но характер получаемой информации ясен. Вряд ли более тщательный анализ именно этих цепочек раскроет какие-нибудь страшные тайны Академии наук. Не исключено, впрочем, что персонаж шпионских романов Ле Карре немедленно засел бы за просмотр всех документов, по которым выстроены отраженные на схеме связи. Мы же с вами можем просто обратить внимание на крайнюю узость круга людей, общение с которыми Президента Академии замечают СМИ.

Если бы речь шла о рыночной конкуренции, можно было бы использовать и другие типы запросов по связям: поиск совместных упоминаний, скажем, конкурента и его клиентов в конфликтном контексте, объявления о проектах и результатах их реализации, оценку «уровня бесконфликтности», в том числе в связи с госорганами, и т. д. В случае Академии все это неинтересно и неприменимо – хотя бы потому, что конкурентов у РАН нет.

Вот так сработал текст-майнинг на этом необычном (в «Медиалогии» не помнят, чтобы научные учреждения интересовались своим обликом в СМИ или динамикой репутации) запросе.

Поделиться:
Популярные книги

Я еще не князь. Книга XIV

Дрейк Сириус
14. Дорогой барон!
Фантастика:
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Я еще не князь. Книга XIV

LIVE-RPG. Эволюция 2

Кронос Александр
2. Эволюция. Live-RPG
Фантастика:
социально-философская фантастика
героическая фантастика
киберпанк
7.29
рейтинг книги
LIVE-RPG. Эволюция 2

Матабар

Клеванский Кирилл Сергеевич
1. Матабар
Фантастика:
фэнтези
5.00
рейтинг книги
Матабар

Кодекс Крови. Книга VII

Борзых М.
7. РОС: Кодекс Крови
Фантастика:
боевая фантастика
попаданцы
аниме
5.00
рейтинг книги
Кодекс Крови. Книга VII

Безымянный раб [Другая редакция]

Зыков Виталий Валерьевич
1. Дорога домой
Фантастика:
боевая фантастика
9.41
рейтинг книги
Безымянный раб [Другая редакция]

Светлая ведьма для Темного ректора

Дари Адриана
Любовные романы:
любовно-фантастические романы
5.00
рейтинг книги
Светлая ведьма для Темного ректора

ТОП сериал 1978

Арх Максим
12. Регрессор в СССР
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
ТОП сериал 1978

Сердце дракона. Том 18. Часть 2

Клеванский Кирилл Сергеевич
18. Сердце дракона
Фантастика:
героическая фантастика
боевая фантастика
6.40
рейтинг книги
Сердце дракона. Том 18. Часть 2

Рота Его Величества

Дроздов Анатолий Федорович
Новые герои
Фантастика:
боевая фантастика
8.55
рейтинг книги
Рота Его Величества

Я — Легион

Злобин Михаил
3. О чем молчат могилы
Фантастика:
боевая фантастика
7.88
рейтинг книги
Я — Легион

Двойной запрет для миллиардера

Тоцка Тала
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Двойной запрет для миллиардера

Газлайтер. Том 12

Володин Григорий Григорьевич
12. История Телепата
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Газлайтер. Том 12

Мятежник

Прокофьев Роман Юрьевич
4. Стеллар
Фантастика:
боевая фантастика
7.39
рейтинг книги
Мятежник

На границе империй. Том 10. Часть 2

INDIGO
Вселенная EVE Online
Фантастика:
космическая фантастика
5.00
рейтинг книги
На границе империй. Том 10. Часть 2