Журнал «Компьютерра» № 27-28 от 24 июля 2007 года (695 и 696 номер)
Шрифт:
(думаю над продолжением)
ИНТЕРНЕТ: Народ-блогоносец
Автор: Захаров, Павел
По мере проведения исследований выявляется множество удивительных общих свойств сетей столь разного происхождения. Например, очень многие сети являются «малыми мирами», поскольку путь от одного узла к другому зачастую намного меньше ожидаемого интуитивно. Один из самых известных экспериментов в истории социологии, проведенный психологом из Гарварда Стэнли Милгрэмом в 1967 году, показал, что жителей США объединяет цепочка в среднем из пяти знакомых или шести рукопожатий. Парадоксальность полученного результата привела к быстрой популяризации концепции малого мира,
МИНИАТЮРНАЯ ВСЕЛЕННАЯ
Исследования сложных сетей уже давно стали одной из горячих тем, обсуждаемых на страницах не только научных, но и популярных журналов. Не раз обращалась к ним и "КТ". Интерес отчасти связан с близостью и осязаемостью изучаемых этой наукой объектов. К ним относятся и Интернет, и электрические сети, и сети взаимодействия белков, и сети совместной работы актеров, ученых и бизнесменов.
конце 90-х группа физиков из Университета Нотр-Дам (США) под руководством Альберто Барабаши предприняла попытку определить, насколько мал мир веба, то есть сколько в среднем требуется кликов, чтобы перейти от одной веб-страницы к другой. Оказалось, что уже в далеком 1999 году кликов требовалось всего лишь девятнадцать. Благодаря этой работе была сделана еще одна чрезвычайно важная и неожиданная находка – самоподобие структуры веба. Распределение количества ссылок, размещенных и указывающих на веб-страницы, спадает по степенному закону, что приводит к так называемому эффекту "толстого хвоста" распределения – наличию значительного количества страниц с чрезвычайно большим количеством ссылок.
С тех пор пошло-поехало: класс малых безразмерных сетей стал пополняться все новыми и новыми типами сетей окружающего нас мира. И вот, наконец, ученые снова взялись за самые сокровенные сети – сети человеческих взаимоотношений, или, попросту, социальные сети. Произошло это во многом благодаря набравшим популярность в последние годы блог-сервисам со встроенной поддержкой социальных связей, которым удалось накопить гигантские базы виртуальных взаимоотношений пользователей. Некоторые из них, такие как безусловный лидер в России – LiveJournal, или Живой Журнал, даже не думают скрывать свои базы ни от
праздного наблюдателя, ни от сетевого исследователя и более того – поддерживают бот-интерфейс, заметно упрощающий сбор данных. Эта возможность и была использована нашей группой для изучения доступной сети френдования1 LiveJournal. В LJ на момент написания статьи (май 2007 года) зарегистрировано больше 12 млн. пользователей, 1,8 млн. из которых, по сведениям LJ, активны. Начав с нескольких активных пользователей и исследуя все исходящие дружеские связи, краулер способен в течение некоторого времени собрать данные о более чем 4,3 млн. пользователей, пока не будут исчерпаны все ссылки. Этот блок сети, составляющий ее основную и самую важную часть, называют сильно связанным компонентом. Когда вся информация собрана исохранена на локальном компьютере, она может быть досконально исследована методами анализа графов.
Итак, является ли социальная сеть LJ "малым миром"? Оказывается, да. Конечно, LJ – очень тесный мир, где один пользователь соединен с другим цепочкой в среднем из пяти друзей. То есть требуется шесть шагов по друзьям, чтобы, начав с одного, достичь любого другого пользователя. Не правда ли, удивительное совпадение с легендарными шестью рукопожатиями Милгрэма?
Но на этом неожиданности не заканчиваются. Что представляет собой подобная сеть?
Является ли она бессистемным переплетением связей, то есть случайной сетью, или ее структурой все же управляют некие скрытые законы. Читатель, знакомый с LiveJournal, тут же отметит, что кириллический ЖЖ [Я намеренно использовал термин «кириллическое» сообщество, а не «российское» или "русскоговорящее", поскольку оно не ограничивается определенной страной, национальностью или языком. Как правило, его составляют выходцы из стран бывшего СССР и Израиля, которые, однако, могут географически находиться где угодно. В дальнейшем под ЖЖ будет подразумеваться именно этот сегмент, а под LJ – сеть в целом] и остальной, преимущественно англоязычный LJ – совершенно разные сущности, и будет прав. Они лишь функционируют внутри одной программной системы, и собраны нами в один большой граф. Есть ли возможность разделить их, пользуясь лишь имеющейся информацией о дружеских связях?
Вспомним, что в виртуальной реальности блог-сервиса дружеские связи – это каналы распространения информации. Поместил, например, пользователь Петя в свой журнал новый анекдот, прочитали его друзья, возможно, скопировали себе, их друзья тоже почитали, посмеялись и скопировали в свои журналы и так далее. Анекдот начал свою диффузию по сети (рис. 1).
Почему диффузию? Потому что процесс описывается похожими законами, как и распространение эпидемий, и случайное блуждание по сети. Естественно, что кто-то прочтет этот анекдот одним из первых, кому-то он попадется во френдленте не один раз. Но будут и те, кто узнает о нем позже других, в силу того, что живет на другом «острове» социальной сети и его связь с остальным миром поддерживает лишь небольшое количество социальных цепочек.
Самый яркий пример подобного «острова» в сети – сообщество пользователей онлайновой RPG-игры Must Be Pop (community livejournal com/must_be_pop), насчитывающее более 15 тысяч членов. Выберите любого из членов этого сообщества и попробуйте добраться до первого известного вам журнала ЖЖ, переходя по дружеским связям. Сколько кликов потребуется? Если вы будете блуждать, не зная пути, то в среднем потребуется больше 111 кликов. Специфика членов этого сообщества в том, что они ведут вымышленные дневники реальных знаменитостей.
Не удивительно, что френдят и читают их, как правило, лишь другие поклонники этой игры. Отсюда и замкнутость.
Обнаружить подобный «остров» и определить границы этого обособленного ареала блоггеров позволяют все те же краулеры [Идея исследования веба при помощи произвольно блуждающих краулеров использована также и в алгоритме PageRank, определяющем рейтинг страниц для поисковика Google]. Если в среднем требуется 111 переходов, чтобы покинуть сообщество, и диаметр всей сети LJ равен шести, то мы почти наверняка можем быть уверены, что после, скажем, двух десятков переходов большинство отправленных краулеров останется внутри сообщества и лишь немногие успеют его покинуть. При этом количество краулеров, застигнутых на конкретном пользователе, поделенное на число входящих дружеских связей, – величина постоянная для всех членов сообщества, которая может быть использована для проверки принадлежности пользователя к тому или иному сообществу.
Вернемся теперь к кириллическому ЖЖ и отправим краулеры блуждать, начав с какого-нибудь известного блоггера – например, с журнала doctor_livsy, принадлежащего Сергею Лукьяненко. Ничто не мешает нам отправить вторую команду с отдаленного от ЖЖ пользователя, скажем, с журнала future_visions. Тогда для каждого пользователя LJ можно подсчитать количество краулеров того или иного семейства, остановившихся на нем на определенном шаге. Чем краулеров больше – тем ближе пользователь к их источнику. Распределение пользователей по количеству обнаруженных на их узлах краулеров можно представить графически в виде двухмерной карты.
Первое, что бросается в глаза, – наличие двух ярких «островов» пользователей, меньший из которых на поверку оказался группой кириллических пользователей ЖЖ, поскольку примерно 98% из ее участников используют кириллицу в своих журналах или комментариях. Анализ обнаруженной группы показал, что лишь один из каждых ста друзей пользователей ЖЖ находится вне кириллического сегмента. То есть в среднем потребуется 100 случайных кликов, прежде чем мы сможем покинуть ЖЖ и оказаться в англоговорящем LJ. Результат немногим уступает рекорду Must be Pop.