Инноваторы. Как несколько гениев, хакеров и гиков совершили цифровую революцию
Шрифт:
Попытка составить рейтинг сайтов усложнила их задачу. Вместо того чтобы просто посчитать количество ссылок, ведущих на страницу, Пейдж и Брин решили, что было бы еще лучше, если бы они оценили ценность каждой входящей ссылки. Например, ссылка New York Timss должна была иметь больший вес, чем ссылка с сайта Джастина Холла, который он вел из общежития колледжа Суортмор. Получался рекурсивный процесс с несколькими петлями: каждый веб-сайт получал место в рейтинге согласно количеству и авторитетности входящих ссылок, а ценность этих ссылок зависела от рейтинга их родного сайта. Влиятельность же этого сайта также определялась по количеству и авторитетности ссылок, которые вели на него. «Это все рекурсия, — пояснял Пейдж. — Один большой круг. Но математика восхитительна, она позволяет решать такие задачи» [1071] .
1071
Интервью, взятое Джоном Инсом у Сергея Брина, The Lost Google Tapes, часть 2.
Математические задачи именно такого уровня
1072
Sergey Brin, Rajeev Motwani, Larry Page, Terry Winograd, What Can You Do with a Web in Your Pocket? Информационный бюллетень Технического комитета по информационным технологиям при Компьютерном обществе Института инженеров электроники и электротехники (1998).
1073
Интервью, взятое автором у Ларри Пейджа.
Мог ли рейтинг PageRank улучшить результаты поиска — это был вопрос на миллион. Пейдж и Брин провели один сравнительный тест: попробовали набрать слово «университет» в разных поисковых системах. AltaVista и другие сайты выдавали список случайных страниц, в названии которых встречалось это слово. «Помню, я как-то спросил авторов тех систем: „Зачем вы кормите людей бессмыслицей?“» — вспоминает Пейдж. Ему ответили, что такие результаты поиска — его вина и что ему нужно уточнять свои поисковые запросы. «Благодаря лекциям по взаимодействию человека и машины я знал, что обвинять пользователей — не лучшая идея. То есть владельцы тех поисковиков в корне ошибались. Мы были уверены, что пользователь всегда прав, поэтому нам удалось создать поисковую систему, которая была лучше остальных» [1074] . Когда они ввели слово «университет» в свою систему, учитывающую рейтинг PageRank, то получили следующие результаты: Стэнфорд, Гарвард, Массачусетский технологический институт и Университет Мичигана. Такой список невероятно их порадовал. «Вот это да, — сказал себе Пейдж. — Мне и всей нашей команде стало очевидно, что можно искать информацию намного эффективнее, если уметь определять авторитетность веб-сайтов, основываясь на мнении общественности, а не на данных самих страниц» [1075] .
1074
Levy, In the Plex, 358.
1075
Levy, In the Plex, 430.
Пейдж и Брин продолжили совершенствовать свою поисковую систему. Алгоритм PageRank «научился» учитывать такие факторы, как частота употребления, размер шрифта и расположение ключевых слов на веб-странице. Сайт получал больше баллов, если ключевое слово было расположено в его URL-адресе или названии, а также если оно было набрано заглавными буквами. Пейдж и Брин анализировали каждый блок результатов и слегка поправляли формулу. Они вычислили, что важную роль необходимо отводить якорному тексту ссылок, то есть «кликабельным» подчеркнутым словам, которые представляли собой гиперссылку. Например, слова «Билл Клинтон» являлись якорным текстом для многих ссылок, ведущих на портал whitehouse.gov, чтобы этот сайт появлялся среди верхних результатов, когда пользователь искал слова «Билл Клинтон». При этом на стартовой странице сайта whitehouse.gov имя Билла Клинтона не было по-особенному расположено или выделено. Тем временем конкурирующая поисковая система на запрос «Билл Клинтон» в качестве первого результата поиска выдавала сайт «Анекдот дня от Билла Клинтона» [1076] .
1076
Интервью, взятое Джоном Инсом у Сергея Брина, The Lost Google Tapes, часть 2, http://www.podtech.net/home/1728/podventurezone-lost-google-tapes-part-2-sergey-brm.
Поисковой системе Пейджа и Брина приходилось иметь дело с огромным количеством страниц и ссылок, в частности, поэтому они назвали ее Google. Гугол (googol) — это число, состоящее из единицы и сотни нулей. Название предложил Шон Андерсон, аспирант из Стэнфорда, с которым Пейдж и Брин делили учебную комнату. Оказалось, что домен Google свободен, и Пейдж моментально его купил. «Мне кажется, мы не поняли, что сделали орфографическую ошибку, — позднее признается Брин. — Но googol все равно был занят. Какой-то парень уже купил домен Googol.com и не хотел с ним расставаться, сколько я его ни уговаривал. Поэтому мы оставили себе Google» [1077] .
1077
В 2006 году слово google появится в качестве глагола в Оксфордском словаре английского языка. — Прим. автора.
1078
Levy, In the Plex, 947.
Пейдж и Брин развивали Google в двух направлениях. Во-первых, они улучшали техническое оснащение своего проекта: были значительно увеличены пропускная способность интернет-канала, вычислительная мощность серверов и объем их памяти. Здесь они обошли всех конкурентов. Имея такие ресурсы, их поисковые роботы могли индексировать сотни страниц в секунду. Во-вторых, Пейдж и Брин фанатично изучали поведение пользователей, чтобы постоянно корректировать свои алгоритмы. Если пользователь кликал по верхним результатам и больше не возвращался в Google, это означало, что он нашел то, что искал. Однако если человек проходил по предложенным ссылкам, но тут же возвращался на страницу поиска и изменял свой запрос, значит, он был недоволен результатами. В таком случае инженерам следовало рассмотреть отредактированный запрос и понять, что же пользователь изначально пытался найти. Если же пользователи проматывали две или три страницы с результатами, то, значит, их не устраивал порядок выведения ссылок. Как заметил журналист Стивен Леви, благодаря постоянному потоку обратной связи разработчики Google узнали, что пользователи могут набирать «собаки», но искать при этом щенков или что слово «кипячение» может означать горячую воду. В конечном итоге Google научится «понимать», что запрос «хот-дог» («горячая собака») не имеет отношения к кипячению щенков [1079] .
1079
Интервью, взятое автором у Ларри Пейджа.
Один человек придумал похожую на PageRank систему оценки ссылок. Это был китайский инженер Янхон (Робин) Ли, который закончил Университет штата Нью-Йорк в Буффало и устроился в отделение агентства Dow Jones в Нью-Джерси. Весной 1996 года Пейдж и Брин работали над PageRank, а Ли написал алгоритм RankDex, позволявший сортировать результаты поиска по тому, сколько входящих ссылок вело на предлагаемые страницы и какие слова являлись якорным текстом этих ссылок. Ли купил самоучитель по патентованию и при помощи Dow Jones запатентовал свой алгоритм. Однако компания несильно интересовалась разработками Ли, поэтому он переехал на запад и обосновался в компании Infoseek, а затем вернулся в Китай. Там он выступил сооснователем поисковой системы Baidu, которая стала лидером китайского рынка и одним из основных конкурентов Google на мировом рынке.
К началу 1998 года в базе данных Пейджа и Брина имелись карты, содержащие приблизительно 518 миллионов гиперссылок из существующих 3 миллиардов. Пейдж не хотел, чтобы система Google осталась научным проектом, и мечтал видеть ее популярным коммерческим продуктом. «У Николы Теслы была похожая проблема, — говорит Пейдж. — Изобретаешь прекрасную (по твоему мнению) вещь и хочешь, чтобы люди ею пользовались как можно скорее» [1080] .
1080
Sergey Brin and Larry Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine, 7-я международная World Wide Web Conference, апрель 1998 г., Брисбен, Австралия.
Поскольку Пейдж и Брин собирались превратить свою диссертацию в бизнес-проект, они не жаждали публиковать материалы своих исследований или проводить презентации. Однако их научные руководители настаивали на публикации, и весной 1998 года Пейдж и Брин написали статью длиной двадцать страниц. В ней они описали теоретическую базу, лежащую в основе PageRank и Google, но так, чтобы не раскрыть конкурентам все свои карты. Статья называлась «Анатомия системы крупномасштабного гипертекстового веб-поиска», а доклад по ней был сделан на конференции в Австралии в апреле 1998 года.
«В данной работе мы представляем Google, прототип крупномасштабной поисковой системы, которая активно использует структуру гипертекста» [1081] , — так начиналась статья. Приятели создали карты, содержащие более полумиллиарда из 3 миллиардов ссылок интернета, что позволило вычислить рейтинг PageRank для минимум 25 миллионов веб-сайтов. А по заверениям Пейджа и Брина, люди в целом связывают этот рейтинг «с субъективным понятием авторитетности». Далее они в деталях описывали «простой итеративный алгоритм», который рассчитывал PageRank для каждой страницы. «Мы изучили научные источники о цитировании и применили полученные знания к интернет-ресурсам, что по большей части означало, что мы подсчитали частоту цитирования каждой страницы или количество входящих ссылок. Так мы получили приближенные значения „влиятельности“ или надежности страницы. PageRank позволял смотреть глубже, поскольку при расчете рейтинга ссылкам с разных страниц назначалась разная ценность».
1081
Vise, The Google Story, 30.