Чтение онлайн

на главную - закладки

Жанры

Журнал «Компьютерра» № 15 от 17 апреля 2007 года
Шрифт:

Для изучения многих других процессов вообще не существует лабораторных установок по одной простой причине: создать их невозможно. О лабораторных работах по изучению, например, законов Кеплера до появления персональных компьютеров оставалось только мечтать.

Обучающие программы, как и учебники, нужно выбирать аккуратно. Ошибки бывают разные: как формальные (которые были описаны), так и методические — в построении интерфейса, составе и организации информации. Каждые ошибки опасны по-своему. Первые приведут к неправильному знанию, вторые могут на долгие годы заложить представление

о предмете как о скучном и неинтересном. Как и в учебниках, ошибки в обучающих программах обходятся дорого.

Каждому по поиску

Автор: Янковский, Роман

Наступившая эпоха Web 2.0 затронула и поисковики. Один за другим появляются различные специализированные поисковые системы (например, scholar.google.com, google.com/codesearch, koders.com и др.). В этой статье автор хотел бы поделиться впечатлениями о сервисах, позволяющих создать свой тематический поисковик.

Первая ласточка

Около года назад ЗАО «Поисковые технологии» запустило бета-версию «Персонального поиска» в рамках проекта «Новотека», который позволил желающим создавать свои тематические поисковые системы. Предлагается несколько вариантов использования сервиса «Новотека», в том числе и бесплатный (в результатах поиска которого демонстрируется реклама). Платные варианты отличаются размером дисковой квоты и количеством разрешенных за месяц запросов. Также они позволяют экспортировать результаты поиска в XML-формате.

Автор тематического поисковика должен настроить поискового робота, указывая ему точки входа на сайты (страницы, с которых начнется индексация содержимого сайта) и маски, по которым робот будет отбирать ссылки на веб-страницы для скачивания. Размер поисковой базы ограничен дисковой квотой, которая в бесплатном варианте составляет 1 Гбайт — этого объема достаточно в большинстве случаев. Некоторые из поисковиков, разработанных на базе «Новотеки», обрели популярность. Например, поиск по антивирусным сайтам от Игоря Ашманова или по ресурсам для поисковых оптимизаторов.

Несмотря на жесткие правила регистрации новых посетителей, уже опубликовано более 550 поисковых систем на различные темы — от электронных библиотек и научных сайтов до недвижимости и тендеров.

Следующим этапом эволюции «Персонального поиска» станет проект Flexum, запуск которого запланирован на середину апреля. Как обещают разработчики, пользователи «Персонального поиска» будут автоматически перенесены во Flexum, но об этом чуть позже.

Гигант поиска, в том числе тематического

Через несколько месяцев после запуска «Персонального поиска» и Google объявил об открытии сервиса Google Custom Search Engine. Поисковому гиганту нет нужды в выделении дополнительных мощностей под хранение данных тематического поиска, достаточно лишь использовать уже существующую базу.

Как раз благодаря использованию готовой глобальной базы отпадает надобность в поисковом роботе — достаточно настроить фильтрацию существующей поисковой базы. Настройка Google CSE — гибкая, простая и интуитивно понятная — заключается в указании фрагментов ссылок на страницы, которые будут использоваться в тематическом поиске. У автора поисковика также есть возможность присвоить сайтам теги, выбирая которые, пользователь сможет лучше конкретизировать запрос.

В отличие от «Персонального поиска», Google CSE не позволяет экспортировать результаты в XML. Интеграция с поиском возможна только с использованием JavaScript или AJAX. Это действительно проще, но накладывает ограничения на программную обработку результатов поиска.

Google SCE, как и системе от «Новотеки», не хватает поддержки регулярных выражений в масках. Нельзя сказать, что она нужна позарез, но порой довольно удобна. В некоторых случаях регулярные выражения позволили бы сделать запись более компактной. Например, вместо нескольких ссылок, вроде site.ru/hunting, site.ru/fishing и site.ru/justforfun, можно было бы прибегнуть к более краткому варианту: site.ru (hunting|fishing|justforfun).

Сервисная специфика

Опыт использования упомянутых движков для реализации поиска по материалам о программировании1 показывает, что Google CSE часто позволяет более качественно и в то же время просто фильтровать контент при включении в поиск только отдельных частей сайтов. В «Персональном поиске» нередко приходилось использовать несколько точек входа, количество которых, к слову, для одного сайта ограничено, что сужает возможности настройки.

На многих сайтах размещены материалы на самую разную тему. Например, на одном и том же сайте может присутствовать как документация по программированию на PHP, так и статьи о веб-дизайне. Можно выделить два способа построения ссылок при разбиении сайта на тематические разделы. В первом случае имеют место статьи с адресами вида site1.ru/category_name/article_name.htm и оглавление раздела со ссылками на статьи по адресу site1.ru/category_name. А во втором соответственно site2.ru/article_name.htm и site2.ru/category_name.htm.

При работе с «Персональным поиском» оба способа одинаково удобны: задается одна или несколько точек входа — по количеству страниц оглавлений разделов, — и статьи, на которые эти точки ссылаются, будут проиндексированы.

В Google CSE очень просто работать со ссылками первого типа: для каждого раздела достаточно добавить фрагмент текста, который присутствует в адресах входящих в него статей (site1.ru/category_name). Со вторым типом возникают проблемы. Если указать строку «site2.ru», то в поиске будут задействованы статьи всех разделов, даже ненужных. В таких случаях можно добавлять в базу ссылки на статьи нужной тематики по одной, но это трудоемкое занятие, если статей на сайте сотни. К счастью, большинство качественных ресурсов использует первый способ адресации статей и разделов.

Отметим и возможность показа объявлений Google AdSense в тематическом поиске, которые приносят автору поисковика дополнительный доход. Также сервис Google позволяет выводить на странице поиска список наиболее популярных запросов.

Отсутствие у «Новотеки» общих поисковых баз не следует ставить ей в вину. «Персональный поиск» предоставляет возможность создания своей собственной поисковой базы. Некоторые веб-страницы по разным причинам могут отсутствовать в индексе Google. «Персональный поиск» лишен этого недостатка, и в базу будет включено только то, что указано в настройках робота. И обновляться она будет с заданной периодичностью.

Поделиться:
Популярные книги

Виконт. Книга 2. Обретение силы

Юллем Евгений
2. Псевдоним `Испанец`
Фантастика:
боевая фантастика
попаданцы
рпг
7.10
рейтинг книги
Виконт. Книга 2. Обретение силы

Наследник

Шимохин Дмитрий
1. Старицкий
Приключения:
исторические приключения
5.00
рейтинг книги
Наследник

Измена. Свадьба дракона

Белова Екатерина
Любовные романы:
любовно-фантастические романы
эро литература
5.00
рейтинг книги
Измена. Свадьба дракона

Мастер 4

Чащин Валерий
4. Мастер
Фантастика:
героическая фантастика
боевая фантастика
попаданцы
5.00
рейтинг книги
Мастер 4

Запрети любить

Джейн Анна
1. Навсегда в моем сердце
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Запрети любить

Великий князь

Кулаков Алексей Иванович
2. Рюрикова кровь
Фантастика:
альтернативная история
8.47
рейтинг книги
Великий князь

Идеальный мир для Социопата 13

Сапфир Олег
13. Социопат
Фантастика:
боевая фантастика
постапокалипсис
рпг
5.00
рейтинг книги
Идеальный мир для Социопата 13

Огненный князь 4

Машуков Тимур
4. Багряный восход
Фантастика:
попаданцы
аниме
5.00
рейтинг книги
Огненный князь 4

На границе империй. Том 9. Часть 3

INDIGO
16. Фортуна дама переменчивая
Фантастика:
космическая фантастика
попаданцы
5.00
рейтинг книги
На границе империй. Том 9. Часть 3

Я – Орк

Лисицин Евгений
1. Я — Орк
Фантастика:
юмористическая фантастика
попаданцы
аниме
5.00
рейтинг книги
Я – Орк

Шериф

Астахов Евгений Евгеньевич
2. Сопряжение
Фантастика:
боевая фантастика
постапокалипсис
рпг
6.25
рейтинг книги
Шериф

Вечный. Книга IV

Рокотов Алексей
4. Вечный
Фантастика:
боевая фантастика
попаданцы
рпг
5.00
рейтинг книги
Вечный. Книга IV

Кодекс Охотника. Книга XVIII

Винокуров Юрий
18. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Охотника. Книга XVIII

Прометей: каменный век II

Рави Ивар
2. Прометей
Фантастика:
альтернативная история
7.40
рейтинг книги
Прометей: каменный век II