Юный техник, 2001 № 05
Шрифт:
Информационное наполнение (база данных) обычно создается автоматически работающей на данном сервере программой, рассылающей по сети автономные модули — «пауки», выполняющие сбор, первичный анализ и пересылку на поисковый сервер информации об обрабатываемых сайтах.
Преимущества: значительно больший, чем для каталогов, охват имеющейся в Интернете информации.
Недостатки: значительное количество «информационного шума» в результирующем списке (ссылок на сайты, в содержимом которых заданное ключевое слово употреблено лишь формально).
Пример: поисковая служба «Яндекс» (рис. 1).
Рис. 1
•
Технология «пауков» позволяет включить в сферу поиска максимально возможное количество сайтов, но у многих специалистов вызывает опасение тот факт, что способность этих программных модулей к автономной работе на других серверах (точнее, заложенное в системах безопасности этих серверов разрешение на допуск «паука» к информации и его запуск на исполнение) может стать «лазейкой» для создателей компьютерных вирусов и каких-либо разрушительных действий.
• Логика построения поискового запроса — правила, позволяющие формировать правильную ключевую фразу из набора ключевых слов. В зависимости от поставленной поисковой задачи возможны следующие ситуации:
— точное соответствие, когда в искомом тексте должна присутствовать именно эта фраза и никакая иная (пример: компьютерная мышь);
— в искомом тексте должны находиться все заданные ключевые слова (пример: мопеды И мотоциклы);
— достаточно, если в искомом тексте присутствует хотя бы одно ключевое слово (пример: самолет ИЛИ вертолет);
— одно или несколько ключевых слов не должно входить в искомый текст (скажем, чтобы отсечь большой массив «ложных» ссылок; пример: локомотив НЕ футбол).
Иногда отдельно рассматривается ситуация, когда еще заданные ключевые слова должны не только присутствовать в тексте, но и располагаться рядом, например, в пределах одного абзаца. Важным часто является и регистр букв (строчной или прописной), например, ключевое слово «лебедь» позволяет найти и птицу, и генерала, а «Лебедь» — только фамилию.
Современные поисковые серверы, как правило, предоставляют возможность ввода ключевой фразы в свободной форме и автоматически выполняют ее смысловую предобработку: выделение ключевых слов с отсечением незначащих (предлогов, местоимений и пр.), вариации окончаний слов, иногда автоматический перевод фразы на другие языки (например, заданная пользователем фраза «книги по программированию на Бейсике» автоматически превращается в запрос типа: (книга ИЛИ книге ИЛИ книгу ИЛИ книги ИЛИ книг ИЛИ book ИЛИ books) И (программирование ИЛИ программированию ИЛИ программирования ИЛИ programming) И (Бейсик ИЛИ Бейсике ИЛИ Бейсика ИЛИ Бейсику ИЛИ Basic ИЛИ BASIC). Кроме того, при задании нескольких ключевых слов в результирующий список могут включаться и сайты, в которых содержатся не все эти ключевые слова (на поисковом сервере «Яндекс» в этом случае после аннотации, помещенной в результирующий список, делается примечание: «Нестрогое соответствие»). Дополнительно предусматривается сортировка найденных ссылок в списке по «релевантности» — этот термин подразумевает максимальное соответствие найденных страниц заданному ключу поиска, которое программа определяет на основе анализа количества вхождений ключевых слов в текст, место, в котором они обнаружены (наиболее подходящими, например, считаются страницы, где ключевые слова обнаружены в заголовке документа), благодаря использованию алгоритмов «искусственного интеллекта» (хотя они пока еще далеко не совершенны). Соответственно, в результирующем списке наиболее подходящие ссылки выдаются первыми.
Конкретные правила записи (синтаксис) поискового запроса на конкретном поисковом сервере могут несколько отличаться от остальных (обычно на головной странице «поисковика» можно найти ссылку на описание этих правил). Чаще всего операция И обозначается символом «&» или «+» (а иногда подразумевается по умолчанию, если слова записаны друг за другом через пробелы), ИЛИ — символом «|», НЕ — «~» (либо знаком «минус» перед ключевым словом), а фраза, которая должна присутствовать как образец, должна целиком заключаться в кавычки.
• Портал, мультипортал — сайт, содержащий подборку ссылок на информацию, чаще всего требуемую большинству пользователей Интернета, не являющихся профессионалами в области компьютики: сведения о погоде, курсе валюты, новости, программы телевидения, спортивные события и пр.
• WebRing — технология объединения в единую тематическую подборку различных сайтов, при которой формируется замкнутый в кольцо массив ссылок на них, а на каждом из этих сайтов содержатся типовые ссылки «Next» (переход на следующий сайт в кольце), «Prev» (переход на предыдущий сайт в кольце), «Random» (переход на случайно выбранный сайт кольца), «List Sites» (переход на полный список сайтов, входящих в кольцо) и «Next 5» (выдача списка следующих пяти сайтов). Поддержка всех подобных колец осуществляется централизованно на сервере WebRing.
Пример: модуль на сайте Russian Project «Chip & Dale — Rescue Rangers» (рис. 2).
Рис. 2
Адресная книга
Поисковые серверы:
— Яндекс — http://www.yandex.ru/
— Rambler — http://www.rambler.ru/
— AltaVista — http://www.altavista.com/
— Yahoo — http://www.yahoo.com/
Мультипортал «Кирилл и Мефодий» — http://www.km.ru/
Сервер WebRing — http://dir.webring.yahoo.com/rw
Ребята! Давайте познакомимся поближе! Я приготовила для вас несколько вопросов. Чтобы ответить на них, пометьте ответ или ответы, с которыми вы согласны, — если слева от ответов стоят кружочки, то выбрать можно только один ответ из имеющихся, если квадратики — можно выбрать несколько ответов, а иногда нужно будет вписать свой ответ в отведенную графу. Заполнив анкету, пришлите ее в редакцию по адресу: 125015, Москва, А-15, Новодмитровская ул., 5а. Или же по электронной почте: yt@got.mmtel.ru.
КОЛЛЕКЦИЯ «ЮТ»
В 1959 году концерн «МИТСУБИСИ» выпустил многоцелевой двухмоторный самолет, который сразу получил признание многих покупателей. В первую очередь его использовали в личных целях для путешествий, а также для исследований. Первый полет прототипа состоялся 13 сентября 1963 года. Затем совместно с США было разработано около десятка модификаций. До 1979 года выпущено 600 машин различных типов.