Интернет. Новые возможности. Трюки и эффекты
Шрифт:
Из-за необходимости постоянного обновления информации поисковые машины время от времени возвращаются к просмотренным ранее веб-страницам, чтобы найти и зарегистрировать возникнувшие там изменения.
Например, когда робот поисковой машины Google посещает сайт, он обращает внимание на две характеристики: слова на странице и место их расположения, то есть в какой именно части страницы они находятся.
Обнаружив список адресов и соответствующих им ключевых слов, робот-поисковик сохраняет эту информацию в своей базе данных. При этом сохраняется информация о количестве (частоте) упоминаний слова на странице с использованием некой величины – «веса» слова. Как раз на основе этих
Пользователь, работая с поисковой машиной, задает запрос, в результате которого машина формирует список ссылок, упорядоченных по релевантности. Релевантность – это степень соответствия найденной страницы поисковому запросу.
Поисковые механизмы на первых местах списка располагают документы, которые содержат максимум слов из поискового запроса. Найденные ссылки сортируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста или в первых параграфах) и частоты их использования в тексте. Таким образом, вверху размещены ссылки на сайты, в которых искомые слова встречаются чаще всего. Поэтому основная задача пользователя во время поиска в Интернете – получить список ссылок, которые соответствуют поисковому запросу.
Однако, несмотря на общие принципы работы и похожий интерфейс, поисковые машины отличаются между собой целым рядом параметров. Среди них: релевантность результатов, величина и частота обновления баз данных, скорость выдачи результатов и удобство работы.
Наряду с этим существуют и другие различия: языки запроса, зоны поиска, глубина поиска внутри документов, методы определения приоритетов и др. Это является еще одной причиной того, что применение разных поисковых машин дает различные результаты.
Итак, поисковая машина формирует список документов на основе сформированного пользователем запроса. Если запрос не выражает в полной мере суть поиска, его результаты не будут соответствовать тому, что пользователю собственно нужно. Поэтому в первую очередь необходимо уметь правильно создавать поисковые запросы. Их составляют так, чтобы область поиска была максимально конкретизирована, а значит, сужена.
ПРИМЕЧАНИЕ
Основную смысловую нагрузку в поисковом запросе несут имена существительные, гораздо реже – имена прилагательные, а вот использование глаголов почти бесполезно.
Таким образом, для эффективного поиска информации в первую очередь необходимо подобрать для запроса именно те слова, которые действительно несут основную смысловую нагрузку.
У каждой поисковой машины своя уникальная методика поиска, от эффективности которой зависит успех поисковика: чем больше релевантность полученного списка ссылок, тем выше успех на рынке поисковых машин. Механизм поиска не только хранится в секрете, но и регулярно меняется.
В настоящее время все поисковые механизмы ищут документы не только по строгому соответствию введенному запросу – все поисковые машины, которые работают с русскоязычными запросами, умеют проводить морфологический поиск. Это означает, что поиск осуществляется по всем формам слов, заданных в запросе, а также с учетом синонимов (то есть не только в определенном падеже и числе, но и в других).
Согласно общей классификации, поиск разделяют на простой, расширенный и сложный.
Самая важная задача этого этапа – правильно подобрать слова для поискового запроса. Они должны быть, во-первых, характерны для документов, которые вы ищете, а во-вторых, не характерны для нерелевантных документов.
При использовании нескольких слов в поисковом запросе нужно знать, как именно будет производиться поиск– по каждому из слов в отдельности или же по всему запросу в целом. Ответ на этот вопрос зависит от того, какой логический оператор используется по умолчанию при обработке запроса. Это может быть один из двух операторов: AND (поиск по всем словам) или OR (по каждому в отдельности).
Обычно поисковые машины по умолчанию используют первый вариант. Это означает, что в ответ на запрос информационная компетентность поисковик будет искать сайты, в которых это словосочетание встречается полностью. Для использования других логических связей необходимо применить другие логические операторы. Их синтаксис обычно уникален в каждой поисковой машине, поэтому о них поговорим чуть позже.
Специальные виды поиска
Если вы хотите найти в Интернете не список сайтов, а нечто более конкретное, например, программу или книгу, в этом случае вам лучше воспользоваться специальными поисковыми машинами или же, в крайнем случае, специальными возможностями обычных поисковых машин.
Для поиска файлов можно воспользоваться поисковой машиной FileSearch.ru (http://www.filesearch.ru). FileSearch.ru – это поисковая система, осуществляющая поиск среди миллионов файлов, собранных практически со всех российских FTP-серверов и нескольких тысяч зарубежных серверов. База поиска постоянно обновляется (рис. 4.1).
Если традиционные поисковые машины системы ищут на WWW-серверах и HTML-страницах по их содержимому, то FileSearch.ru ищет на FTP-серверах по именам самих файлов и каталогов. Если вам нужна какая-либо программа, игра и т. п., то на WWW-серверах вы, скорее всего, найдете их описание, а найти и скачать нужный файл можно именно с помощью FileSearch.ru.
Кроме файлов, система умеет производить поиск изображений, а также MP3– или видеофайлов. Принцип работы системы аналогичен поиску с помощью обычных поисковых систем.
Метапоисковая система http://www.metabot.ru умеет искать самые разнообразные файлы (MP3, видео и др.). Прежде всего необходимо выбрать нужный вид поиска, установив соответствующий переключатель в нужное положение. Затем следует ввести поисковый запрос. В результате программа предложит список найденных ссылок.
Поиск файлов по FTP-серверам поможет произвести система Rambler-ftp (http://ftpsearch.rambler.ru/db/ftpsearch). Здесь также можно искать файлы самых разнообразных форматов. Пользователям системы доступен простой и расширенный поиск. По схожему принципу работает сервис http://ru.findfile.net, который ищет более чем по 1900 FTP-серверам.
Воспользоваться простым инструментом поиска по FTP-серверам можно на сайте http://ftpsearch.orbita.ru. Англоязычные поисковики размещены на сайтах http://www.ftpplanet.com, http://www.shareware.com.