Как раскрутить и разрекламировать Web-сайт в сети Интернет, Загуменов Александр Петрович

Как раскрутить и разрекламировать Web-сайт в сети Интернет

на обложку

Загуменов Александр Петрович

Шрифт:

Уточнить результаты поиска можно, сделав дополнительный запрос при включенных опциях в новостях или в найденном.

Роботы Rambler при сканировании игнорируют поля <META NAME= «Keywords» Это связано со стремлением разработчиков индексировать документ по его реальному содержанию, а не по критериям автора. Не секрет, что владельцы документов злоупотребляют этими полями, добиваясь того, чтобы их документы обязательно находили по ключевым словам, которые зачастую выбраны произвольно.

Текст, невидимый на странице (то есть набранный шрифтом, цвет которого соответствует цвету, заданному тэгом BACKGROUND), роботы Rambler не индексируют, равно как и комментарии в документе. Каждый комментарий увеличивает размер документа, а значит, снижается вероятность того, что он будет просмотрен до конца.

Значимость HTML-тэгов, к которым следует отнести базовые понятия и ключевые слова, следующая (в порядке убывания):

• <TITLE>;

• <H1> … <H6>;

• <ADDRESS>;

• <B>, <STRONG>.

Чем чаще слово встречается в комбинации этих полей, тем вероятнее, что поисковая система Rambler поместит документ ближе к началу списка, в котором отражены результаты поиска. Кроме того, значимость поискового слова тем выше, чем ближе оно к началу документа.

Использование фреймов в документе не способствует успешному поиску. Это не означает, что роботы не умеют сканировать фреймы. Просто отдельный отсканированный фрейм не позволяет получить представление о целом документе. Данное замечание не относится к случаю, когда фреймы в документе используются исключительно для улучшения навигации. Роботы Rambler прекрасно справляются с конструкциями фреймов, однако в текст таких документов рекомендуется включать тэг <NOFRAMES> с последующим описанием документа и ссылками. Разумеется, это увеличит размер страницы, но в то же время продемонстрирует ваше корректное отношение к пользователям текстовых браузеров и поисковым машинам.

Поисковый сервер Rambler автоматически исключает из индекса слова, встретившиеся более чем в 800 000 документов. Такие слова не являются информативными при поиске, и в 99,9 % случаев можно обойтись без них.

Предельная

внимательность необходима при указании перекрестных ссылок в документе. Надлежит проверить работоспособность каждой из них, иначе роботы не смогут добраться вглубь дерева документов. Следует также иметь в виду, что с точки зрения протокола HTTP две следующие записи различны:

<A href="#"…> <A href="#"…. > (слэш в конце ссылки)

Обычно при запросе по первой ссылке робот получит переадресацию на вторую, а значит, извлечет сам документ только на следующем проходе при обращении к серверу. В итоге замедлится индексация сайта.

Максимальный размер документа для роботов Rambler составляет 200 Кб. Документы большего размера урезаются до указанной величины.

Роботы Rambler обрабатывают ссылки типа <A href="#" >, однако наряду со ссылкой такого вида рекомендуется поместить в текст документа конструкцию <MAP NAME="name">. Это ускорит индексацию документов, указанных в IMAGEMAP, и облегчит доступ к документам для обычных браузеров.

Часто изменяющиеся (динамические) документы рекомендуется исключить из списка индексируемых, так как они быстро теряют актуальность. Выполняется эта процедура с помощью стандартного для HTTP механизма – посредством файла robots.txt в головной директории вашего сайта.

Части документа, не требующие, по вашему мнению, индексации, можно отделять в документе с помощью тэгов <INDEX>…<NOINDEX>.

При написании документов не оставляйте без внимания раскладку клавиатуры. Часто вместо русской буквы р используют латинскую p. Некоторые подобные ошибки индексатор исправляет, но не все. Слова с такими опечатками теряют информативность. Старайтесь не использовать символов переноса (-), поскольку иногда трудно определить, что они означают – перенос слова или его написание через дефис. Помните, что браузер осуществляет представление документа согласно текущим установкам каждого конкретного пользователя.

Отнеситесь серьезно к планированию и размещению вашего сайта, чтобы вам не приходилось направлять письма администраторам с просьбами переиндексировать ваш сайт в связи с изменением его адреса или структуры. Поисковые машины нескоро учитывают коррективы такого рода.

Поисковая система Апорт

Поисковая машина Апорт владелец – компания «Голден Телеком», имеет богатые возможности формирования запроса, в частности способна отслеживать сочетания терминов, если они находятся недалеко друг от друга (на расстоянии нескольких слов или предложений).

Апорт – двуязычная поисковая машина. Будучи наделенной теми же основными характеристиками, что и AltaVista, она содержит намного больше ресурсов современного российского Internet. Апорт входит в число ведущих поисковых систем, сертифицированных Microsoft как локальные поисковые системы для русской версии Microsoft Internet Explorer.

Основные свойства Апорт таковы:

• автоматическая проверка орфографических ошибок запроса;

• информативный вывод результатов поиска по найденным сайтам;

• возможность поиска любых грамматических форм, что особенно важно для русского языка;

• мощный язык расширенных запросов для профессиональных пользователей.

Дополнительные свойства:

• технология поиска с использованием ограничений по URL (адресу) и дате документов;

• осуществление поиска не только по тексту, но и по заголовкам, комментариям, подписям к картинкам и т. д.;

• сохранение параметров поиска и определенного числа предыдущих запросов пользователя;

• объединение копий документа, находящихся на разных серверах.

Апорт является совершенной полнотекстовой поисковой машиной с интегрированным каталогом Internet-ресурсов. Подобная интеграция позволяет систематизировать результаты поиска по рубрикам, представленным в каталоге, и осуществлять поиск отдельно по тематикам, что делает навигацию по ресурсам очень удобной.

Поисковый робот Апорт обходит весь российский Internet в среднем за две недели. Он сам настраивается на скорость обновления сайтов и отдельных страниц и проверяет наиболее часто обновляемые ресурсы.

Документы индексируются следующим образом. При просмотре содержимого сервера для индексирования Апорт обязательно проверяет файл robots.txt. Таким образом, вы можете использовать его, чтобы ограничить «деятельность» системы на своем сервере. При желании установить селективные ограничения только для Апорт следует использовать в качестве имени робота слово Aport.

Будучи полнотекстовой поисковой машиной, Апорт индексирует все слова, которые бы увидел на экране человек, просматривая конкретную страницу вашего сервера. В результате любое слово из текстов ваших документов может служить критерием последующего поиска. Для документов HTML, кроме обычного текста, индексируется также и содержимое ряда полей. К ним относятся заголовок документа (TITLE), ключевые слова (META NAME="keywords"), описания страниц (META NAME="description"), подписи к картинкам (ALT), ссылки (A HREF). Реализована возможность избирательного поиска по этим полям. Кроме того, Апорт индексирует как принадлежащие документу тексты гиперссылок на него с других страниц, находящихся как внутри сайта, так и за его пределами, а также составленные или проверенные редакторами описания сайтов из своего каталога.

Кроме того, Апорт индексирует текстовые файлы (с расширением. txt), на которые найдет ссылки.

Страница, показанная на рис. 3.11, позволяет задать поисковую фразу, выбрать тематический раздел и дополнительно сузить область поиска при помощи переключателя сайты – рефераты – знакомства – mp3 – новости – энциклопедия – работа – товары. Кроме того, возможно применение в строке запросов операторов логики и расстояния между словами, а также поиск по адресам и полям, что значительно расширяет область поиска.

Рис. 3.11. Страница поиска Апорт

Вы можете искать документы не только по всему русскоязычному сектору Internet, но и по его части. Самый простой случай – поиск по определенному серверу. Например:

url=www.inotec.ru программа

По данному запросу будут найдены все документы на сервере www.inotec.ru, содержащие слово «программа».

Для получения списка всех документов, расположенных на указанном вами сервере, следует набрать в строке запроса следующую фразу:

url=www.inotec.ru

На странице, изображенной на рис. 3.12, Апорт показывает количество найденных сайтов и документов в поле Лучшие … сайтов (… документов). В дальнейшем результаты выводятся по сайтам, однако возможность поиска отдельных документов сохраняется постоянно.

Рис. 3.12. Страница результатов запроса Апорт

Каждый основной информационный блок начинается с символа «домик»

который обозначает сайт (в противоположность символу «страничка»

обозначающему отдельный документ). Обычно поисковые системы подразумевают под понятием «сайт» адрес сервера типа www.server.com (его доменное имя). В этом случае адрес сайта определяется по адресу страницы простым отбрасыванием правой части: так, из http://www.server.com/users/~vasya выводится www.server.com. Для больших серверов, где размещены сайты множества фирм или частных лиц, это неудачное решение. Апорт берет в качестве сайта сервер только в самом крайнем случае. Как правило, для определения группы страниц, являющихся логическим целым (сайтом), Апорт использует информацию из базы данных своего каталога, что обеспечивает большую точность, нежели любой автоматический алгоритм (специальные алгоритмы используются для незарегистрированных в каталоге сайтов).

В блоке каждого сайта Апорт приводит информацию об одной – самой подходящей – из найденных на сайте страниц. При этом, кроме обычных для поисковых машин данных (адрес, заголовок, размер и дата файла и т. п.), система выдает цитаты из документа. Они выбираются из полного текста и содержат искомые слова. По цитатам зачастую легко понять, интересует вас документ или нет.

Здесь же вы найдете ссылку на реконструкцию полного текста документа. Она нужна, если документ недоступен на самом сайте.

Чтобы получить информацию обо всех остальных страницах, которые Апорт нашел на сайте, следует воспользоваться ссылкой, замыкающей блок результатов. Нажав указанную ссылку, вы откроете дополнительное окно с результатами поиска по данному сайту. Они разбиты на постраничные блоки данных.

Очевидно, что поиск может считаться успешным, если удается найти нужную информацию на одной из первых страниц с результатами поиска. В этом отношении очень важна сортировка полученных данных. Перечень основных критериев, которые Апорт учитывает при сортировке документов (сайтов), следующий:

• процентное соотношение искомых слов со всеми словами в тексте документа и расстояние между поисковыми словами;

• место в тексте, где встречаются поисковые слова (заголовок, описание, метатэг и т. п.);

• внешний вид шрифта, которым набраны в тексте искомые слова (размер, жирность, цвет);

• количество внешних ссылок из Internet на данный документ. Разработчики Апорта называют это количество Site Rank (Ранг сайта) или Page Rank (Ранг страницы);

• использование искомого слова в тексте ссылок из Internet на данный документ.

Окончательный процент соответствия документа запросу вычисляется как некая интегральная функция от всех этих показателей.

Последний из указанных критериев имеет самостоятельное значение. Если на какой-то сайт есть ссылка, состоящая, например, из слов «современная музыка», то естественно будет предположить, что эти слова (которые выбрал человек, писавший ссылку) могут достаточно точно описывать содержимое сайта.

Поэтому при поиске по слову «музыка» данный сайт должен получить довольно высокое место, поскольку по этому

слову существуют ссылки на него с других ресурсов. Подобный подход значительно улучшает качество сортировки найденных документов. Кроме того, он приносит еще один очень интересный результат.

Представьте себе, что робот, добавляя в базу некий документ с сайта X, нашел ссылку на документ с другого сайта Y, который пока отсутствует в базе Апорта. Благодаря возможности находить документы и сайты по словам из ссылки Апорт сможет теперь найти сайт Y, хотя он еще не индексировался, а может быть, и не будет индексироваться (например, зарубежный ресурс). Эта замечательная возможность позволяет находить гораздо больше сайтов меньшими усилиями, используя запросы с русскими словами даже в зарубежных ресурсах, которые Апорт не индексирует.

Таким образом, индексирование ссылок, которое требует небольшого дополнительного времени, позволяет системе значительно расширить поисковое пространство. В итоге Апорт не только быстро добирается до различных «закоулков» русскоязычной части Internet, но и делает весьма широко доступной зарубежную Сеть, поскольку на многие интересные иностранные ресурсы есть ссылки и с российских сайтов.

В список ресурсов, индексируемых Апортом, может входить как целый сервер (например, www.rol.ru), так и его часть (например, www.company.ru/~vasya/). Последняя, однако, просуществует только до тех пор, пока родительский сервер не будет проиндексирован (www.company.ru в предыдущем примере). Родительский сервер поглотит дочерний ресурс, и тот станет его частью, потеряв самостоятельный статус.

В каждом самостоятельном ресурсе (обычно это сервер) периодически проверяется появление новых документов, изменение или удаление старых. Новые документы добавляются в базу данных, измененные удаляются из нее и добавляются уже в новом виде. Документы, которые не нашлись на сервере, из базы данных Апорта удаляются не сразу. Удаление происходит в том случае, если документ не доступен на сервере при нескольких обновлениях подряд. Таким образом, в целом база данных Апорта всегда содержит некоторое количество удаленных документов. Такой «исторический шлейф» не вреден, а иногда даже и полезен. Сохраняя его, Апорт позволяет иногда получить реконструкцию документа, который в оригинале уже отсутствует в Internet.

Для организации на своем сайте дополнительного сервиса – поиска в Internet – можно установить одну из поисковых форм Апорта . Предлагаются два вида поисковых форм: простые и раскрывающиеся, которые устанавливаются на сайте в виде картинки и раскрываются в полноценную поисковую форму при наведении на них курсора (рис. 3.13).

Рис. 3.13. Одна из поисковых форм, раскрывающаяся при наведении на нее курсора

Чтобы добавить адрес своего сайта в базу поисковой системы Апорт, воспользуйтесь ссылкой Добавить сайт .

Поиск@Mail.ru

Поисковая машина Поuск@Mail.ru была запущена в эксплуатацию в июле 2003 года. Ее владелец – компания Mail.ru. Компании принадлежат крупнейшая электронная почтовая служба России @Mail.ru, одноименный портал, объединяющий более 20 различных сервисов и информационных проектов, популярный Internet-аукцион Molotok.ru, торговая площадка Torg.ru. В состав портала вошел также старейший каталог сайтов List.ru, некоторые службы рассылок и знакомств и др. Портал Mail.ru предоставляет пользователям практически весь спектр сервисов, существующих на сегодня в сети: почту, поиск, рейтинг и счетчик, бесплатный хостинг, почтовые рассылки, чаты, форумы, открытки, знакомства и многое другое. Особенно полно представлены сервисы, направленные на коммуникацию между пользователями. Поиск@Mail.Ru ищет на сайтах всего мира с учетом русской морфологии, исправляет опечатки и хранит персональную историю запросов и ответов. Несмотря на свою молодость, поисковая система стремительно набирает популярность, во многом благодаря доверию людей, давно пользующихся услугами почтовой службы Mail.ru.

Страница поиска (рис. 3.14) позволяет задать поисковую фразу, выбрать тематический раздел каталога и дополнительно сузить область поиска при помощи переключателя Интернет – Картинки – Каталог – Товары и лоты – Софт – Словари. Кроме того, можно перейти на страницу расширенного поиска (кнопка

), а также воспользоваться сервисом ввода данных с помощью мыши и виртуальной клавиатуры (кнопка

) – см. рис. 3.15.

Рис. 3.14. Страница поиска Поиск@Mail.ru

Рис. 3.15. Виртуальная клавиатура Клавиатура@Mail.ru

В зависимости от заданных условий с помощью расширенного поиска вы найдете результаты:

• по всем словам запроса;

• по точной фразе;

• по любым из слов запроса;

• без указанных слов.

Кроме того, с помощью расширенного поиска можно искать:

• определенные типы документов (Adobe Acrobat PDF – .pdf, Adobe Postscript – .ps, Microsoft Word – .doc, Microsoft Excel – .xls, Microsoft Powerpoint – .ppt, расширенный текстовой формат – .rtf);

• страницы по дате их изменения (последние 3, 6 и 12 месяцев);

• результаты, содержащие слова в различных местах страницы (в заголовке, в основной части, в адресе страницы, в ссылках на данную страницу);

• документы на определенном сайте или, наоборот, исключить его из сферы поиска;

• похожие страницы;

• ссылки, которые указывают на интересующую вас страницу.

По умолчанию поисковая система выдает результаты (рис. 3.16), полученные на сайтах всего мира, но, при желании, можно включить в зону поиска только русскоязычные сайты. При расширенном поиске, наоборот, по умолчанию система ищет только в русском Internet.

Рис. 3.16. Страница результатов Поиск@Mail.ru

Функция «Вы искали» позволяет восстановить запросы, которые были ранее заданы поисковой системе. Она полезна в случае, если нужна какая-либо информация, которую вы находили некоторое время назад, но не можете вспомнить точную формулировку запроса.

Чтобы установить на своем сайте форму для поиска в Internet посредством Поиск@Mail.Ru, выберите ее на страницеПредлагаются разного размера формы: стандартные, цветные, экстравагантные и предложенные пользователями.

Для добавления адреса своего сайта в базу данных поисковой системы Поиск@Mail.ru, воспользуйтесь ссылкой Добавить сайт .

Tela

Поисковая система Tela , принадлежащая компании NetLogic , позволяет вести поиск по ключевым словам русско– и англоязычных страниц на российских серверах, а также сайтов ближнего зарубежья на украинском и белорусском языках.

Сбором информации занимается подсистема-робот, созданная на базе робота MOMspider . По возможности игнорируются страницы, содержащие статистику по использованию серверов. Текущее количество собранных страниц выдается вместе с результатом поиска. Поисковая часть сервера Tela сделана на базе системы поиска freeWAIS-sf с использованием русской версии системы MorphIlias, которая осуществляет поддержку морфологии языка, что позволяет задавать ключевые слова в произвольной форме.

Поисковая система Tela не отличается масштабностью. Страница поиска Tela, показанная на рис. 3.17, позволяет задать поисковую фразу, а также перейти на страницы поиска на английском, украинском и белорусском языках.

Рис. 3.17. Страница поиска Tela

Система поддержки русского языка, с которой работает Tela, допускает указание ключевых слов в естественном запросе, в любой из возможных словоформ русского языка, даже неправильной. Например, считаются эквивалентными и, следовательно, выбираются по запросу следующие словоформы:

имя, имени … именами, именах;

марка … марок … марках;

ухо … ушей … ушах;

крюк, крючья … крюках, крючьях;

Допускается использование метасимвола «звездочка» в конце любого слова, где * означает произвольное количество любых символов (до пробела), например мед*. В этом случае подходящими считаются все слова, начинающиеся подобным образом и имеющие разные окончание. Обратите внимание, что использование метасимвола нередко дает совершенно неприемлемый результат, поэтому требуется известная аккуратность. Так, при поиске упоминаний о меди по указанному выше шаблону помимо искомых форм (медь, меди) будут найдены варианты медведь, медицина, медик, медикаменты, медитация и т. д.

Переключатель Искать позволяет выбрать одно из трех условий поиска:

• любое слово (логическое ИЛИ);

• все слова (логическое И);

• все слова рядом.

Вывод результатов осуществляется в зависимости от степени соответствия найденных документов запросу. Количество выводимых на каждой странице ссылок задается в поле Число возвращаемых документов.

На странице результатов поиска, изображенной на рис. 3.18, Tela показывает число найденных ресурсов в поле Найдено документов. Каждая запись о найденном документе сопровождена опцией предварительного просмотра (ссылка Предосмотр страницы), позволяющей до загрузки исходной страницы оценить ее содержание по имеющемуся в системе фрагменту.

Рис. 3.18. Страница результатов запроса Tela

Самостоятельная регистрация ресурсов в системе Tela не предусмотрена.

Rundex

Поисковая машина Rundex – это поисковая система с ограниченным объемом информационной базы. Страница поиска Rundex (рис. 3.19) позволяет задать поисковую фразу, а также сузить область поиска, выбрав опции переключателя:

• WEB-страницы;

• Книги (метапоиск);

• Рефераты (метапоиск);

• Товары в интернет-магазинах.