Как раскрутить и разрекламировать Web-сайт в сети Интернет, Загуменов Александр Петрович

Как раскрутить и разрекламировать Web-сайт в сети Интернет

на обложку

Загуменов Александр Петрович

Шрифт:

Если строка в поле C0NTENT получается слишком длинной, не возбраняется разбить ее на несколько конструкций этого вида.

Указание ключевых слов – это основной способ использования тэга META. Информация о документе, составленном с использованием различных языков, может быть представлена в нескольких таких тэгах. Тогда поисковые машины могут фильтровать атрибут LANG и отображать результаты поиска с применением выбранного пользователем языка – например, так:

<– Для говорящих на английском в американской версии->

<– Для говорящих на британском английском ->

<– для русскоязычных пользователей ->

Эффективность обращения к поисковым машинам можно повысить также за счет использования тэга LINK для создания ссылок на разноязычные переводы страницы, на версии документа для другого носителя (например, PDF) и, если документ является частью набора, ссылок на соответствующую начальную точку для просмотра набора.

Метатэг NAME="keywords" позволяет автору документа самостоятельно создать адекватный содержанию набор ключевых слов и фраз. Допустимая для восприятия роботом длина перечня варьируется от 874 до 1 000 символов. При отсутствии указанного метатэга робот формирует набор автоматически на основе своего алгоритма. Если индексируется все содержимое документа, то он будет участвовать в отклике и по тем терминам, которые входят в текст страницы, но отсутствуют в метатэге. Автоматический индекс при создании поискового образа документа может комбинировать содержимое метатэгов и текста, должным образом взвешивая термины из разных полей Web-страницы. При этом далеко не все системы, которые поддерживают метатэги, отдают явное предпочтение входящим в них терминам.

Отметим также, что метатэг ключевых слов стоит размещать в одну строку, поскольку некоторые роботы не умеют переходить к новой строке.

Ключевые

слова лучше не повторять более двух раз, иначе поисковая система может расценить это как спам. Нежелательно, например, задавать последовательности вида «free, free, free, free, free, free», но вполне допустимы такие, как «free, free web, free stuff, internet for free».

Большего успеха можно добиться, если использовать не ключевые слова, а ключевые фразы. Если вы подберете их удачно, то, возможно, при запросе ваша ссылка окажется одной из первых. Есть еще один, не вполне серьезный прием, основанный на известной ошибке. Многие забывают переключать языковую раскладку клавиатуры, и тогда, допустим, вместо запроса «free» возникает запрос: «акуу», то есть английское слово, введенное буквами кириллицы, расположенными на соответствующих клавишах. Как ни странно, результат бывает положительным: поисковая система выдает ссылку на ваш сайт!

Для хорошего индексирования документа поисковыми системами рекомендуется в первом абзаце текста на каждой странице использовать как можно больше отобранных для нее ключевых слов.

Как известно, основную смысловую нагрузку несут в языке имена существительные. Поэтому именно они составляют большую часть ключевых поисковых слов. Значительно реже используются прилагательные, совсем редко – глаголы, наречия, предлоги, союзы. Имена прилагательные просто незаменимы, если требуется индексировать «голландский сыр» с «баварским пивом» в «ночном клубе».

Очень эффективно использование редких слов. К таковым можно отнести специальные термины, названия местностей, организаций, имена людей и т. п. Применение подобной лексики позволяет максимально конкретизировать тематику.

Существует целый ряд слов, которые поисковая система будет игнорировать при запросе; их поиск невозможен. Это так называемые стоп-слова, например: на, что, это, для и др. Они настолько часто встречаются в текстах, что искать по ним что-либо крайне затруднительно. Интересно, что в списки стоп-слов для некоторых поисковых машин уже входят такие, как Internet, компьютер, Сеть. Они стали настолько распространенными, что утратили свое значение (с точки зрения поиска, конечно). Очевидно, что использовать стоп-слова в качестве ключевых нет смысла.

Метатэг NAME="description" позволяет включить в поле C0NTENT краткое описание документа. В зависимости от робота воспринимаемая длина текста составляет от 150 до 250 символов. После индексирования поисковой машиной описание должно появиться рядом со ссылкой на документ при попадании его в список отклика.

Если ресурс ориентирован не только на русскоязычную публику, целесообразно сделать отдельные описания на разных языках. Следует создавать лаконичные и привлекающие внимание тексты; суть должна быть ясна с первого взгляда, поскольку на страницах с результатами поиска в поисковой системе информацию о каждом найденном сайте приводят в одном небольшом абзаце.

При составлении описания не нужно указывать в нем название сайта – оно и так будет проиндексировано. С точки зрения индексирования сайта не имеют смысла общие фразы типа: «Здесь есть все», «Вам будет интересно», «Заходи, не пожалеешь!» и т. п. Обратите внимание посетителя именно общее содержание, а он сам разберется, нужна ли ему ваша страница или нет. Стоит ли заманивать читателей, если они сразу же покинут сайт, убедившись, что он не соответствует описанию?

Если в документе нет описания, то в качестве такового поисковые машины приводят несколько начальных строк документа. Поэтому случается, что если в самом начале документа есть фрагмент, написанный на языке JavaScript, то вместо нормального описания выдается «абракадабра» в виде фрагмента скрипта.

Словом, необходимо, чтобы описание имело вид аннотации, состоящей из нескольких ясных предложений, и тогда пользователь поисковой машины сможет легко понять смысл документа.

При подборе ключевых слов для метатэга документа необходимо учитывать различные нюансы. Многие алгоритмы придают больший вес тому термину или фразе, которые расположены ближе к началу перечня. Число повторений ключевых слов не должно превышать определенного количества (как правило, двух-трех), во избежание применения санкций против спама: иначе страница не будет проиндексирована и включена в базу данных поисковой системы. Неплохую помощь могут оказать системы, которые отслеживают запросы, поступающие от пользователей на поисковые машины. Важно найти не просто адекватные содержанию ключевые слова и фразы, а именно те, которые часто применяются пользователями на практике.

Итак, поисковые роботы берут ключевые слова и описание сайта непосредственно из кода страницы и содержимого метатэгов NAME = «keywords» и NAME="description". Однако не все системы придерживаются такой методики. Многие проверяют соответствие ключевых слов основному тексту страницы, а полнотекстовые поисковые машины анализируют все ее содержимое, хотя ключевые слова в ней при поиске являются приоритетными.

Для более широкого охвата потенциальной аудитории ключевые слова и описание сайта, которые вы стремитесь вставить в большинство документов, рекомендуется корректировать в соответствии со смыслом конкретной страницы. Это повысит вероятность попадания на ваш сайт. Общее же его описание пригодится для страниц с «нейтральным» содержанием.

Большинство поисковых машин придает большое значение титулу страницы и метатэгам с ее описанием и ключевыми словами. Однако стоит подумать не только о поисковых системах, но и о тех, кто увидит эти ссылки, – ведь в конечном итоге ссылки будут выведены на экран, а решать, переходить по ним или нет, будет пользователь.

Допустим, вы сделали запрос program. Появились результаты, в числе которых, например, такие:

Free program, program, free, program free, free program

Free program, program, free, program free, free program, free

program, program, free, program free, free program, free program,

program, free, program free, free program, free program, program,

free, program free, free program

Воспользоваться такими ссылками уже не тянет – возникает предубеждение к сайту и его хитрому создателю. Современные поисковые роботы определяют спам и не индексируют страницу, но машина – это всего лишь машина.

Можно просто вписывать в титул метатэги, ключевые выражения, результат будет тот же: бессмысленные ссылки! Пожалуй, не зря считается, что оформление страниц для поисковых систем – это наука и искусство. Ваша задача – не только правильно подобрать ключевые фразы и слова, но и составить из них логичные предложения для титула и описания, которые и выводятся в результатах поиска. При этом еще надо уложиться в отведенное количество символов.

Подбор ключевых выражений начинает походить на некое таинство, особенно это касается иностранных поисковых систем: некоторые расхожие слова уже «проданы», и вы, как ни бейтесь, на первое место по ним не попадете.

Появилась даже платная услуга по подбору ключевых слов и оформлению документов под них, осуществляемая профессионалами. Если вы полагаете, что вам это не нужно, – готовьтесь постоянно следить за своим рейтингом в поисковых машинах и определять положение ваших ссылок по заданным ключевым словам, ведь поисковики действительно могут обеспечить вам существенный приток посетителей.

Язык документа

В глобальном контексте Internet важно знать, на каком языке создается страница. Определите язык документа, как описано выше, в разделе «Свойство Content-language».

Языковые варианты документа

Если вы подготовили переводы документа на другие языки, используйте тэг LINK для ссылки на эти тексты. Такой подход повысит эффективность поисковых машин и позволит им предлагать результаты поиска на языке, предпочитаемом пользователем, независимо от построения запроса. Например, следующие ссылки предлагают поисковой машине французскую и немецкую версии:

<LINK rel="alternate"

type="text/html"

href="#" hreflang="fr"

lang="fr" title="La vie souterraine">

<LINK rel="alternate"

type="text/html"

href="#" hreflang="de"

lang="de" title="Das Leben im Untergrund">

Указанным тэгом определяется связь. Хотя он может быть представлен неограниченное число раз, его присутствие допускается только в разделе HEAD документа. Несмотря на то, что тэг LINK не имеет содержимого, он является носителем информации об отношениях, которая может представляться агентами пользователей (браузерами) различными способами, например, в виде панели с выпадающим списком ссылок.

Таким же способом с помощью тэга LINK задаются ссылки на версии документа для другого носителя (например, PDF) и, если документ является частью набора, ссылки на соответствующую начальную точку для просмотра набора.

Начало набора

Наборы документов, или представлений систем обработки текстов, часто переводятся в наборы документов HTML. Для поисковых машин полезно указать ссылку на начало набора в дополнение к тому, что страница попала в результаты поиска. Вы можете помочь поисковым системам, применив тэг LINK, имеющий атрибуты REL="begin" и TITLE=, как показано в следующем примере:

<LINK REL="begin"

TYPE="text/html"

href="#"

TITLE="Oбщая теория относительности">

Инструкции для роботов – файл robots.txt

Алгоритмы работы многих поисковых машин предусматривают возможности ограничения действий роботов. Это достигается с помощью файла robots.txt и тэга META в документах HTML.

Файл robots.txt объясняет роботу поисковой машины, что надо индексировать, а что не стоит. Зачем, например, индексировать служебные файлы, скажем, статистические отчеты?

Файл содержит набор команд, которые позволяют закрыть от индексирования отдельные каталоги узла. Обычно закрываются каталоги, содержащие скрипты, служебную информацию и т. п. Отчасти это повышает контрастность значимых документов узла в поисковой

системе. К тому же поисковые машины нередко вводят ограничение на число ресурсов, регистрируемых для одного сервера. Некоторые – так, например, действовал робот поисковой системы Lycos, – вообще не проводят индексирования, если указанный файл отсутствует.

Итак, если вы поддерживаете работу сервера с доменным именем www.mysite.ru, то содержимое файла robots.txt должно быть доступно по адресу: http://www.mysite.ru/robots.txt, то есть данный файл следует загрузить в корневой каталог вашего сайта. Когда робот просматривает Web-сайт, сначала он проверяет наличие документа http://www.mysite.ru/robots.txt. Если таковой обнаружен, анализируется его содержимое и выясняется, позволено ли загрузить документ. Вы можете настроить файл robots.txt для конкретных роботов и запретить доступ к определенным каталогам или файлам.

На одном сайте может быть только один файл robots.txt. Не следует помещать файлы с данным именем в каталоги, поскольку робот их не найдет. Обратите внимание, что при адресации в Internet учитывается регистр, поэтому название robots.txt должно быть задано в нижнем регистре.

Файл robots.txt – это обычный текстовый документ, содержащий одну или несколько записей, разделенных пустыми строками, как показано в следующем примере:

# robots.txt for

User-agent: *

Disallow: /cgi-bin/maillist/

Disallow: /tmp/

Disallow: /product1.html

User-agent: aport

User-agent: scooter

Disallow:

Вот пример файла robots.txt, полностью запрещающего доступ к сайту всем роботам:

User-agent: * # Применяется ко всем роботам. Disallow: / # Запретить индексацию всех страниц.

Каждая запись должна начинаться с указания переменной User-agent отдельной строкой. Таких строк может быть и несколько. Значением переменной User-agent задается оригинальное имя программы-робота соответствующей поисковой системы, для которой предназначена информация.

Согласно спецификации на файл robots.txt, текст в нем чувствителен к регистру, так что следует записать именно User-agent, а не User-Agent. Трудно сказать, вызывает ли неверное написание проблемы у роботов поисковых систем, но для надежности лучше соблюсти требования спецификации.

Имя робота может быть похоже на название соответствующей поисковой системы, а может и сильно отличаться от него. Далеко не всегда оно соответствует названию механизма поиска. Поэтому нельзя просто написать AltaVista в Useragent и ожидать, что AltaVista исключит указанные вами страницы. Имя робота указывается без учета регистра и не включает информацию о версии. Можно перечислить несколько имен через пробел. Символ * является маской и означает: «для всех роботов». В этом случае запись описывает режим доступа по умолчанию для любого робота, неупомянутого явно в других записях. В файле robots.txt не может быть нескольких таких записей.

В табл. 1 приведены имена роботов некоторых поисковых систем.

Таблица 1. Имена роботов поисковых систем

Начиная со следующей строки после указания переменной User-agent, определяются собственно правила поведения робота в виде задания значений переменным Allow (Разрешить) и Disallow (Запретить).

В поле Allow задается перечень разрешенных для посещения роботами поисковых машин каталогов и файлов, а в поле Disallow – перечень закрываемых каталогов и файлов. Это может быть полный или частичный путь. Любой URL-адрес, начинающийся с этого значения, нельзя будет загрузить. Например, запись Disallow: /help запрещает доступ к /help.html и /help/index.html, в то время как запись Disallow: /help/ запретит доступ к /help/index.html, но разрешит доступ к /help.html.

Если файл находится в корневом каталоге, обязательно включите перед его именем символ «слеш» – косую черту вправо.

Пустое значение параметра Disallow означает, что все URL сайта могут быть проиндексированы. Частая ошибка при написании robots.txt состоит в том, автор ставит *, чтобы указать, что хочет исключить все файлы в каталоге. Однако правильным будет не включать никаких звездочек в поле Disallow.

В файле robots.txt должно быть, по крайней мере, одно поле Disallow. Символ # предваряет комментарии, необрабатываемые роботами.

В примере, рассмотренном выше, первая запись запрещает индексирование двух каталогов и файла product1.html. Роботу Scooter поисковой системы AltaVista и роботу Aport поисковой системы Апорт для доступа открываются все каталоги (поле Disallow пусто). При необходимости закрыть все каталоги следовало бы написать: Disallow: /. Пустая строка между записями необходима.

Очень важно не допускать ошибок в файле robots.txt. В противном случае конструкции могут не работать, а вы даже не будете знать об этом. Возможно, некоторые поисковые системы без затруднений разрешат проблемы, возникающие из-за различий в синтаксисе, однако абсолютной гарантии нет. Поэтому, если вы обнаружите ошибку в синтаксисе, исправьте ее и повторно зарегистрируйте ресурс в поисковых системах. Роботы поисковых машин снова проиндексируют ваш сайт и выполнят все указания, имеющиеся в файле robots.txt.

Обратите внимание, что недопустимы строки вида:

Disallow: /tmp/*

или

Disallow: *.gif

Подробное описание стандарта исключений и синтаксиса команд файла robots.txt вместе с другой полезной информацией о роботах (на английском языке) можно найти по адресу http://www.robotstxt.org/wc/robots.html.

Тэг META для роботов

Файл robots.txt поддерживается практически всеми роботами, однако корневой каталог сервера может быть недоступен вам. В этом случае для аналогичных целей, но лишь в пределах одного документа можно использовать специальные метатэги. Они не только решают проблему запрета, но и предоставляют позитивные возможности для управления индексированием. Это более гибкое средство управления индексацией, чем robots.txt. В частности, в тэге можно дать роботу поисковой машины предписание не уходить по ссылкам на чужие серверы, например, в документах со списками ссылок:

Из данного примера видно, что все управление в метатэге сводится к указанию двух переменных, а именно NAME и C0NTENT. Для переменной C0NTENT в контексте NAME="robots" допустимо использовать следующие значения (они могут быть записаны как строчными, так и прописными буквами):

• index – разрешено индексировать документ;

• follow – разрешено следовать по ссылкам;

• all – эквивалентно употреблению index и follow одновременно (записывается через запятую), то есть разрешено индексировать данную страницу и все ссылки, исходящие из нее. Когда обнаружено слово all, все другие слова, если они указаны, игнорируются;

• noindex – не индексировать сам документ, но следовать по его ссылкам;

• nofollow – индексировать, но не идти по ссылкам;

• none – эквивалентно одновременному употреблению noindex и nofollow через запятую, то есть всем роботам предложено игнорировать данную страницу при индексации.

Если указанный метатэг пропущен или не задано значение переменной C0NTENT, то по умолчанию поисковый робот действует, как при значении C0NTENT="index,follow" (или C0NTENT="all", что равноценно).

Если в переменной C0NTENT содержатся противоположные по смыслу ключевые слова (например, follow и nofollow), то робот поступает по своему усмотрению; в данном случае выбрано follow).

В приведенном выше примере свойство NAME="robots" дает роботам предписание индексировать и саму страницу (C0NTENT="index"), и документы, ссылки на которые она содержит (C0NTENT="follow"). Вместо двух этих значений, приведенных через запятую, можно было бы написать одно – C0NTENT="all" – с тем же результатом.

Указанный метатэг позволяет авторам HTML-документов сообщать роботам о том, может ли документ быть проиндексирован или его следует использовать, чтобы получить дополнительные ссылки. Для этого не требуется вмешательства администратора сервера.

В следующем примере роботу не предписано ни индексировать сайт, ни анализировать ссылки:

Другие метатэги

Другие метатэги также могут использоваться роботами при сканировании. Например, тэг с параметром NAME="author" позволяет ввести имя автора документа и учитывается некоторыми поисковыми системами, что иногда может существенно помочь при поиске.

Похожий метатэг с параметром NAME="generator" часто автоматически проставляется различными HTML-редакторами и содержит информацию о программе, в которой был сделан документ. Некоторые авторы в его описании дублируют информацию метатэга "author".

Метатэг с параметром NAME="copyright" служит для указания принадлежности авторских прав.

Справедливости ради следует отметить, что поисковые системы все же редко используют указанные метатэги в своей работе.

Проверка ссылок

До начала рекламной кампании стоит убедиться в том, что в текстах страниц, размещенных на сайте, нет технических ошибок. К таковым относятся неправильно расставленные ссылки, отсутствие каких-либо файлов и собственно погрешности в HTML-коде, а также грамматические и орфографические ошибки в текстах документов. Напомним, кстати, что сайтом называют набор документов, которые в установленном порядке размещены на определенной машине и доступ к которым через сеть обеспечивается HTTP-сервером.

Реакция пользователя на ошибки такого рода может иметь самые печальные последствия для автора. Замечая их, посетитель испытывает досаду, раздражение и быстро уходит с сайта. Уговорить «обиженных» вернуться будет крайне трудно.

Формальную проверку сайта можно провести как сетевыми средствами, так и при помощи различных программ. Кроме того, необходимо обратить особое внимание на смысловые элементы, играющие немаловажную роль при «раскрутке» Web-ресурса:

• заголовки;

• использование фреймов;

• метатэги;

• навигацию по Internet-страничкам.

В качестве дополнительной проверки понадобится исследование времени загрузки ваших страниц. Кроме того, очень важно иметь доступ к файлам посещений, что позволит вести постоянный анализ жизнедеятельности сайта в самых разнообразных аспектах.

В каком-то смысле созданный вами гипертекст похож одновременно и на книгу, которую вы должны откорректировать, и на программу, которую необходимо отладить. По крайней мере, следует дать прочитать его кому-нибудь из той группы людей, для которой он написан, и проанализировать замечания. Но одного этого недостаточно, требуется протестировать документ. Просмотрите его в нескольких различных обозревателях (браузерах), чтобы убедиться, что его вид не зависит от средства вывода.