Журнал «Компьютерра» № 34 от 18 сентября 2007 года
Шрифт:
Форумы и прочие "очень динамические" сайты. Вдобавок к перечисленным проблемам (удаление, перенос в архив) ссылка на ветку форума более склонна «протухнуть», например, из-за перенесения обсуждения в другой подфорум и от прочих действий модератора; на небольших коммунальных вики-сайтах могут часто меняться имена статей (естественно, в сторону "более точных"); даже в Википедии «сомнительный» раздел может быть удален из важной статьи; а «верную» ссылку на комментарий к некоей записи в блоге дать еще сложнее…
Наконец, с точки зрения человека, поставившего ссылку, Веб может выглядеть иначе, чем с точки зрения читателя. Например, ссылка поставлена на статью на сайте, требующем авторизации, или на «подзамочную» запись чужого блога (тот, кто ставил ссылку, был «авторизован» и просто
Мы здесь оставляем в стороне совсем наивных авторов, поставивших «ссылку» на самую свежую статью в блоге или на новостном сайте в виде "www.АдресСайта. ru", и прочие клинические случаи.
Как бы то ни было, большинство этих случаев объединяет тот факт, что "текст под ссылкой" до сих пор существует в Сети, и даже где-то «неподалеку» от того места, куда указывала ссылка, – но, увы, «сдвинулся» на несколько миллиметров в сторону. Этого уже достаточно для разрушения ниточек-ассоциаций, нужных читателю, а в самых запущенных случаях – для полного разрушения какой-то ценной части контента.
Чтобы пронаблюдать эти эффекты вживую, достаточно почитать (точнее, попытаться это сделать) ошметки "первого Рунета" (конец 90-х), с его прото-блогами, веб-обзорами, зарождением сетевого литературного сообщества […а вовсе не какой-то отдельной "сетевой литературы", которую принято глубокомысленно обсуждать].
Одна часть тогдашних "отцов Рунета" (и по сию пору людей известных и уважаемых, да вот от бумагомарания давно отошедших) публиковалась под крылом "Русского Журнала", старых "Граней. Ру" и "Вестей. Ру", – все их статьи сохранились, но как архивы – на других, часто совсем неожиданных сайтах.
Другая часть вела свои дневники-колонки (слово «блог» еще не было придумано) по адресам, выделенным провайдером или тогдашним работодателем для "страничек пользователей", – эти материалы, после утери к ним интереса авторов, пропали, кажется, безвозвратно, не осев даже и в интернет-архивах (о которых – позже). Весь этот огромный корпус гипер-текстов, написанный людьми образованными и любопытными, к тому же между собой лично знакомыми, был густо залинкован (в немалой степени он состоял из диалогов, ответов и обзоров публикаций друг друга) – и за исключением отдельных, переживших время жемчужин, ценен был именно во всей полноте. И полнота эта утеряна безвозвратно. Притом что бо, льшая часть текстов по-прежнему доступна [Интересно, что наибольшая вероятность найти по прежнему адресу страницу восьми-десятилетней давности остается для сайтов на бесплатных хостингах вроде Geocities.ru или narod.ru – там, даже если автор забросил свое «творение», никому не придет в голову "поменять структуру сайта" или "удалить страницы неактивных пользователей"].
КСТАТИ
У древних японцев считалось, что увидеть паука или паутину – хорошая примета, означающая, что скоро придет письмо.
Мерси Шелли, «Паутина»
Очевидно, что существуют способы – пусть трудоемкие, пусть не всегда работающие, но хоть какие-то – противостоять течению времени, разрушающего Паутину.
Конечно, в идеале о сохранности ссылки должен заботиться ее адресат; структуры сайтов лучше не менять, а, меняя, устанавливать умную переадресацию; «вкусные» домены не упускать… В лучшем мире, возможно, так оно и было бы. В реальности же некоторые сайтовладельцы не то чтобы не заботятся о пришедших по точным ссылкам, но… считают ссылки на внутренние страницы сайта (а не на главную) нарушением копирайта и ущемлением своих прав [Это не выдумка. Несколько соответствующих судебных дел можно найти по ключевым словам "lawsuit deep linking"; как правило, это случаи, в которых доступ к платному контенту ограничивался сомнительным способом сокрытия точных адресов страниц (и открытия их после оплаты) при полном отсутствии авторизации].
То есть "заполнение разрывов" остается делом тех, кто ставит ссылки, а также самих серферов-читателей. И для тех, и для других – базовых техник "борьбы со Временем" всего две: архивирование и использование "ассоциативных ссылок" вместо гиперссылок (но лучше – вместе с ними).
Архивирование. Архивы «всего» Интернета можно найти в кэше поисковиков (Google, Yahoo, MSN) или в специализированном Internet Archive; крупные участки Веба сохраняются также в некоторых региональных поисковиках или национальных архивах. Кэши поисковых машин, как правило, содержат более-менее актуальные копии страниц (навсегда «умершие» сайты из кэша исчезают) и оттого пригодны лишь для «добычи» временно недоступного контента (сайт упал, а статья нужна сегодня). Зато Internet Archive (archive.org) и его Wayback Machine (web.archive.org) позволяют получить «снимки» почти любого сайта за почти любой период его существования – «снимки» делаются примерно раз в полгода. Самое интересное, что все ссылки, ведущие со страницы, приведут тоже на заархивированные копии сайтов – таким образом, становится доступен целый "временной срез" Веба.
К сожалению, далеко не все сайты и страницы доступны таким образом. Internet Archive "не любит" страниц с "динамическими адресами" ("example.com/index.php?articleId=…"), ему недоступен Deep web (часть Веба, закрытая от индексации поисковиками), наконец, он вынужден уважать права авторов и удалять из архива копии сайтов по первому требованию владельца [А иногда и не владельца. Известен случай, когда множество антисайентологических сайтов исчезло из Internet Archive (а также из кэша Гугла) по требованию Церкви Сайентологии]. Схожие проблемы и у локальных (национальных и тематических) архивов.
Впрочем, если архивированием того-на-что-ссылка своевременно озаботится автор ссылающегося материала, ему станут доступны еще некоторые техники "архивирования по требованию". В частности, такими методами пользуются ученые, у которых научные ссылки в работах все чаще ведут в Веб, а не в статьи бумажных журналов. Автор может, во-первых, сохранить все материалы, на которые сослался, в специальном месте – например, у себя на сайте (что, впрочем, может быть чревато копирайтными трудностями) или в специализированном сервисе (знающем, как с такими трудностями справиться) [Самый популярный из такого рода архивов – WebCite (webcitata.org) – на момент написания статьи был недоступен (sic!)].
ПРОРОЧЕСТВО
Пожнут твои плоды потомки.
Публий Вергилий
Кроме того, можно не трогать залинкованные материалы, зато поставить на них ссылки в одном из "адресо-независимых форматов" – PURL (Persistent URL) или DOI (digital object identifier). Этот способ основан на том, что для каждой статьи, ссылку на которую необходимо сохранить доступной, ссылающийся заводит запись на специальном сервере (PURL-сервере или DOI-сервере соответственно), в которой и поддерживает лично актуальность ссылки (по необходимости изменяя ее адрес, перенаправляя ее в какой-нибудь архив и т. п.). Читатели же его работы вводят идентификатор ссылки на том же сервере и сразу попадают на ее «живую» версию (если сославшийся не забывает обновлять ее – что при наличии десятков работ и сотен ссылок весьма сомнительно). Впрочем, понятно, что журналисты популярных веб-изданий, блоггеры и прочие "простые смертные писатели" к столь сложным способам "обеспечения доступности" не склонны [Интересно, кстати, как решен этот вопрос в «народной» Википедии. Можно заметить, что актуальные и часто обновляемые статьи в последнее время для указания источников информации переходят с привычных для Веба ссылок из текста к более формальной системе нумерованных сносок, в каждой из которых лежит ссылка и запись вида "доступность проверена тогда-то". Такая система требует дополнительного труда и внимания, зато позволяет обновлять «протухшие» ссылки на источники фактов, не трогая основной текст].