Чтение онлайн

на главную

Жанры

Человеческие сети. Как социальное положение влияет на наши возможности, взгляды и поведение
Шрифт:

В 1996 году Сергей и Ларри уже вместе разрабатывали будущую поисковую машину для интернета. В общежитской комнате Ларри они поставили несколько компьютеров, которые самостоятельно собрали из найденных там и сям деталей, а комнату Сергея превратили в офис, где можно было продумывать идеи и испытывать программы. В работе, которую Сергей и Ларри написали сообща еще студентами, рассказывается о том, что в конце 1990-х Всемирная паутина разрасталась так быстро, что поисковые машины не справлялись со своей задачей. Одна из первых машин – разработанная в 1994 году World Wide Web Worm – индексировала лишь чуть больше 100 тысяч страниц. В 1997 году другая поисковая система, AltaVista, хвасталась тем, что обрабатывает десятки миллионов запросов в день, тогда как в Паутине можно разыскивать и индексировать уже сотни миллионов страниц. Из-за такого огромного количества страниц, нуждавшихся в индексации, пользователь просто не мог найти то, что искал. Говоря словами Брина и Пейджа, “в ноябре 1997 года лишь одна из четырех главных коммерческих поисковых машин находит сама себя (показывает собственную страницу поиска в числе первых десяти результатов в

ответ на запрос с ее собственным именем)”.

Так как же находятся нужные иголки в таком необозримом стогу сена? Есть некоторые очевидные идеи, помогающие понять, как можно выявить нужные пользователю веб-страницы, – по ключевым словам, которые он вводит в строку поиска. Но те же самые ключевые слова содержат бесчисленные страницы. Если искомые ключевые слова часто появляются на какой-то странице, это еще не значит, что именно их разыскивает большинство пользователей. Возможно, здесь полезно свернуть с основной дорожки и приглядеться к содержанию различных страниц. Было испытано множество вариаций этой темы, но все равно, похоже, ничего не получалось. Тут уж легко было сдаться и решить, что Паутина слишком разрослась и индексирование страниц и любая осмысленная навигация по ним – задача в принципе непосильная.

Прорыв, который совершили Брин и Пейдж, произошел благодаря их интересу к сетевому устройству Паутины: она содержит уйму полезной информации, ведь такое устройство не случайно. Одни веб-страницы связаны с другими веб-страницами, которые имеют для них важность. Так как же Брин и Пейдж поняли и использовали эту информацию? Главная догадка заключалась в том, что лучший способ выявить ту страницу, которую пользователь захочет увидеть в первую очередь, – это посмотреть на те веб-страницы, откуда тянутся связи к этой самой веб-странице. Если к какой-либо странице тянутся связи от других важных веб-страниц, значит, скорее всего, это важная страница. Нельзя судить о странице просто по числу ее связей с другими страницами: вопрос заключается в том, связана ли она с теми страницами, которые сами имеют множество связей. В очень многих областях гораздо важнее иметь друзей “с хорошими связями”, чем просто иметь много друзей.

Это как бы круговое определение: страница “важна”, потому что связана с другими “важными” страницами, которые, в свой черед, оказываются “важными”, потому что связаны с “важными” страницами. Несмотря на этот круговой характер, решение получается красивое – и чрезвычайно полезное для сетевой среды.

Предположим, что нам нужно распространить слух или какую-то информацию, которая, как мы полагаем, будет разноситься путем “сарафанного радио”. Чтобы понять, почему здесь не годится прямолинейный принцип популярности, посмотрите на сеть, изображенную на рисунке 2.5. Даже беглого взгляда на нее достаточно, чтобы заметить, что положения Нэнси и Уоррена сильно разнятся, хотя оба они имеют по двое друзей. Различие состоит в том, что их друзья обладают разным качеством связей, а потому и сами они занимают разное положение в сети. У каждого из друзей Уоррена лишь по два друга, тогда как у друзей Нэнси – семеро и шестеро. Таким образом, пускай Уоррен и Нэнси занимают одинаковое положение с точки зрения “степени” (то есть по количеству друзей), у друзей Нэнси степени выше, чем у друзей Уоррена.

Рис. 2.5. Два человека, Нэнси и Уоррен, обладают степенью 2. Однако они различаются количеством связей их друзей – и потому их абсолютные положения в сети различны.

На этом можно было бы остановиться: вместо того чтобы просто считать друзей, мы могли бы считать, сколько дополнительных друзей “приводит” за собой каждый из этих друзей, – иными словами, подсчитывать друзей друзей – назовем их “друзьями второй степени”. Для начала хорошо было бы не ограничиваться подсчетом непосредственных друзей, а считать еще и их друзей, тогда сразу же видно, что у Нэнси больше возможностей для распространения информации, чем у Уоррена. Но зачем останавливаться на этом? Почему не учесть еще и “друзей третьей степени”? Пускай дружба Нэнси с Эллой и не столь плодотворна, если иметь в виду наличие друзей третьей степени, зато ее дружба с Майлсом ведет к еще большему числу связей. Удалившись от Нэнси на три шага, мы уже охватим всех, кроме Уоррена. Отойдя же на три шага от Уоррена, мы насчитаем дополнительно всего пятерых человек, тогда как, удаляясь от Нэнси, мы насчитали шестнадцать человек. Таким образом, Нэнси – гораздо более перспективный кандидат для распространения информации, чем Уоррен, хотя оба они обладают одинаковой степенью.

Как же выявлять эти качества в большой сети, где можно продолжать такой подсчет до бесконечности? Существуют различные способы, но лучше я опишу самую суть задачи. Давайте начнем с того, что просто учтем количество друзей первой степени (непосредственных). Итак, как мы видим из рисунка 2.5, и Нэнси, и Уоррен получат по 2 балла, поскольку у каждого из них – по два друга. Далее, учтем друзей второй степени. Но должны ли мы наделять их таким же значением, что и друзей первой степени? Например, если мы представим себе, что информация начнет распространяться от Нэнси, то, вероятнее всего, она перейдет от Нэнси к Майлсу, затем к кому-нибудь из друзей Майлса, – поскольку она должна вначале перейти от Нэнси к Майлсу, а затем дальше – уже от Майлса. Пожалуй, менее вероятно, что ей понадобится для распространения два шага, а не один шаг, – скажем, в два раза менее вероятно. Так что пока давайте присвоим другу друга значение вдвое меньшее, чем непосредственному другу. У Нэнси одиннадцать друзей второй степени, поэтому присваиваем ей 11/2 баллов, учитывая количество друзей ее друзей. А у Уоррена имеется только один друг второй степени, поэтому он получает 1/2. Итак,

у Нэнси пока что 7,5 балла, если считать ее друзей первой и второй степени, а у Уоррена – только 2,5. Далее мы переходим к подсчету друзей третьей степени: у Нэнси их трое, а у Уоррена – двое. Опять-таки присвоим новым друзьям значение вдвое меньшее по сравнению с предыдущим уровнем, то есть по 1/4. Таким образом, к уже набранным очкам Нэнси прибавится еще 3/4, а к прежним очкам Уоррена – 2/4, после чего общее число баллов у Нэнси уже достигло 8,25, а у Уоррена оно выросло до трех. Продолжая подсчет таким способом, мы сможем количественно оценить, насколько охват людей в сети у Нэнси больше, чем у Уоррена.

Относительное сравнение Нэнси с Уорреном позволяет разрешить и другой вопрос. Давайте условимся, что центральность каждого из них пропорциональна сумме центральностей их друзей. Этот подсчет будет подобен тому, что уже проделан нами ранее. Тем самым Нэнси получит некоторую долю очков Эллы и Майлса – из-за того, что будет учтена некоторая доля очков их друзей, и так далее. Эти повторные операции будут подобными, потому что Элла и Майлс получают очки от своих друзей, которые приходятся друзьями второй степени Нэнси, а те очки получены от их друзей, которые приходятся Нэнси друзьями третьей степени, и так далее {26} .

26

Есть и легкое различие – в том, что теперь мы иногда ведем двойной счет: ведь одним из семи друзей Эллы является Нэнси, а значит, мы и саму Нэнси причисляем к друзьям второй степени. На самом деле, такой двойной счет немного облегчает арифметику, так как на каждом этапе нам нужно лишь установить количество связей, но не нужно вспоминать, кого мы уже считали, а кого нет. Влияние двойного счета обсуждается в работе Banerjee, Chandrasekhar, Duflo, and Jackson (2013, 2015).

По счастью, система уравнений такого типа – когда центральность каждого человека пропорциональна сумме центральностей его друзей – вполне естественная и легкорешаемая математическая задача. Она появилась благодаря ряду научных работ известнейших математиков, живших с XVIII по ХХ век: это Эйлер, Лагранж, Коши, Фурье, Лаплас, Вейерштрасс, Шварц, Пуанкаре, фон Мизес и Гилберт. Гилберт назвал решения подобных задач “айген-векторами”, или “собственными векторами”, и это общепринятое современное название. Неудивительно, что собственные вектора фигурируют во всевозможных областях, от квантовой механики (уравнение Шрёдингера) до алгоритма eigenface, содержащего основные строительные блоки для программ распознавания лиц. Решая задачу собственного вектора в нашем примере, мы приходим к ответу: количество баллов у Нэнси приблизительно в 3 раза больше, чем у Уоррена, что мы и видим на рисунке 2.6 {27} .

27

Если вам интересны подробности показателей на рисунке 2.6, то квадраты показателей центральности в сумме дают единицу, так что вектор показателей центральности нормализован в обычном математическом смысле (в соответствии с L2 или с евклидовой нормой).

Рис. 2.6. Центральности по собственному вектору для каждого узла (человека). У Нэнси почти в 3 раза больше баллов, чем у Уоррена, хотя у обоих имеется одинаковое количество связей. Больше всего баллов у Майлса, хотя у Эллы наибольшая центральность по степени.

Инновация Брина и Пейджа заключалась в том, чтобы выстраивать веб-страницы согласно алгоритму, который они назвали PageRank. Он имеет прямое отношение к тому, что мы описали выше, и к вычислению собственного вектора. Правда, Брин и Пейдж не собирались распространять слухи по сети, но перед ними стояла сходная итеративная задача – так называемая задача случайного пользователя. Интернет-пользователь начинает с какой-то одной страницы, а затем случайным образом переходит оттуда по ссылке на другую страницу, причем он может с одинаковой вероятностью выбрать любую из ссылок. Затем все повторяется – пользователь таким же случайным образом блуждает по Сети {28} . Со временем, если мы вычислим относительное количество раз, которое пользователь посещает каждую страницу, мы получим собственный вектор. В этом случае баллы, которые присваиваются на каждом этапе, пропорциональны количеству ссылок, имеющихся на каждой странице.

28

Их алгоритм учитывал и некоторые случайные перескоки к новым узлам, откуда весь процесс начинался заново, – чтобы была уверенность, что все не зациклится на ограниченном наборе страниц, которые просто ведут одна к другой.

Перед Брином и Пейджем стояли две трудности. Умозрительная задача – найти наиболее значимые страницы – решалась уже известным нам путем: следовало не смотреть на популярность страниц, а просчитывать, насколько хорошо они обеспечены связями в этом итеративном, айген-векторном смысле. Более практическая задача заключалась в том, чтобы внедрить этот принцип в колоссальном масштабе всей Паутины, а это значило, что нужно облазить всю сеть и проиндексировать страницы, накопить данные о содержании каждой страницы и об имеющихся на ней ссылках, а затем произвести итеративные вычисления, чтобы определить их сетевое положение. Одно дело – производить подобные расчеты для Нэнси и Уоррена в нашей маленькой сети, показанной выше, и совсем другое – проделывать то же самое для миллиардов страниц, тем более что они постоянно меняют содержание и ссылки.

Поделиться:
Популярные книги

Идеальный мир для Социопата 3

Сапфир Олег
3. Социопат
Фантастика:
боевая фантастика
6.17
рейтинг книги
Идеальный мир для Социопата 3

Идеальный мир для Лекаря 4

Сапфир Олег
4. Лекарь
Фантастика:
фэнтези
юмористическая фантастика
аниме
5.00
рейтинг книги
Идеальный мир для Лекаря 4

Попала, или Кто кого

Юнина Наталья
Любовные романы:
современные любовные романы
5.88
рейтинг книги
Попала, или Кто кого

"Фантастика 2024-104". Компиляция. Книги 1-24

Михайлов Дем Алексеевич
Фантастика 2024. Компиляция
Фантастика:
боевая фантастика
5.00
рейтинг книги
Фантастика 2024-104. Компиляция. Книги 1-24

Сиротка

Первухин Андрей Евгеньевич
1. Сиротка
Фантастика:
фэнтези
попаданцы
5.00
рейтинг книги
Сиротка

Конструктор

Семин Никита
1. Переломный век
Фантастика:
попаданцы
альтернативная история
4.50
рейтинг книги
Конструктор

Идеальный мир для Лекаря 5

Сапфир Олег
5. Лекарь
Фантастика:
фэнтези
юмористическая фантастика
аниме
5.00
рейтинг книги
Идеальный мир для Лекаря 5

Запасная дочь

Зика Натаэль
Фантастика:
фэнтези
6.40
рейтинг книги
Запасная дочь

Жандарм

Семин Никита
1. Жандарм
Фантастика:
попаданцы
альтернативная история
аниме
4.11
рейтинг книги
Жандарм

Измена. Жизнь заново

Верди Алиса
1. Измены
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Измена. Жизнь заново

Тринадцатый II

NikL
2. Видящий смерть
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Тринадцатый II

Жребий некроманта 3

Решетов Евгений Валерьевич
3. Жребий некроманта
Фантастика:
боевая фантастика
5.56
рейтинг книги
Жребий некроманта 3

Все ведьмы – стервы, или Ректору больше (не) наливать

Цвик Катерина Александровна
1. Все ведьмы - стервы
Фантастика:
юмористическая фантастика
5.00
рейтинг книги
Все ведьмы – стервы, или Ректору больше (не) наливать

Имперец. Земли Итреи

Игнатов Михаил Павлович
11. Путь
Фантастика:
героическая фантастика
боевая фантастика
5.25
рейтинг книги
Имперец. Земли Итреи