Чтение онлайн

на главную

Жанры

Журнал «Компьютерра» № 5 за 7 февраля 2006 года
Шрифт:

15 января на круглом столе в партии «Яблоко» было принято обращение к парламенту с требованием провести всенародное обсуждение законопроекта. Одновременно было выпущено обращение ко всем заинтересованным лицам с просьбой принять участие в разработке единого консолидированного Доклада по проекту закона (privacy.hro.org/persdata/15-01-06.php). Следующий круглый стол по этому вопросу решено провести в партии КПРФ, и далее по очереди в других политических и общественных организациях. Обсуждение доклада за неимением другого ресурса ведется в моем блоге david-gor.livejournal.com.

Софтерра: Обыск местного значения

Автор: Макс Магляс

Говорить о том, что в наше время информационных технологий и бесконечного роста объема данных существует много проблем с обработкой и поиском информации, – это уже кощунство. Дабы не загружать вас субъективными и объективными суждениями, почерпнутыми из различных источников, перейду непосредственно к решению задачи.

Апгрейд «прямого поиска»

Когда информации в локальных сетях было немного, любой поиск осуществлялся банальным перебором горстки доступных файлов и последовательной проверкой их названий и содержимого. Такой поиск называется прямым, и программы, его использующие, традиционно включаются во все ОС и инструментальные пакеты. Но даже мощности современных компьютеров не хватит для быстрого прямого поиска в гигантских объемах данных. Перебор пары сотен документов на диске и поиск в громадной библиотеке и нескольких десятках почтовых ящиков – разные вещи. Поэтому программы прямого поиска сегодня уходят на второй план, если речь идет об универсальных средствах.

В корпоративном секторе такой вид поиска уже не применяется – объемы не те. Не так давно Билл Гейтс, позавидовав, судя по всему, феноменальному успеху Google, огласил желание софтверного (уже и не только) гиганта всячески способствовать развитию поисковых систем и технологий. Но до создания какой-либо феноменальной программы от Microsoft или конкурентоспособного сервиса в Интернете пока далеко.

Индекс, запрос, релевантность

В основе современных технологий поиска лежат два процесса: индексация доступной информации и обработка запроса с последующим выводом результатов. Что касается первого, то любая программа (хоть настольный поисковик, хоть корпоративная информационная система или интернет-поисковый движок) создает свою область поиска. То есть обрабатывает документы и формирует их индекс (организованную структуру, в которой содержится информация об обработанных данных). Затем программа обрабатывает запрос (по ключевому слову-фразе) и выводит список документов, в которых эта ключевая фраза встречается. Так как информация содержится в структурированном индексе, то обработка запроса проходит в десятки и сотни раз быстрее, чем в случае с прямым поиском (выборка документов осуществляется не перебором файлов, а анализом текстовой информации в индексе).

Найденные документы программа выводит в результирующем списке согласно релевантности – соответствию документа тексту запроса. В разных технологиях используются разные методы поиска и определения релевантности (количество «вхождений» слова, частота упоминания, отношение этих параметров к общему количеству слов в документе, расстояние между словами фразы запроса в искомых файлах и т. д.). На основе этих параметров определяется «вес» документа, и в зависимости от него тот или иной файл оказывается в списке результатов на определенной позиции. В случае с интернет-поиском дело обстоит еще сложнее. Ведь в данном случае надо учитывать и множество иных факторов (Page Rank Google тому пример). Но это тема для отдельной статьи, так что Интернет трогать не будем.

На подопытный компьютер (Athlon 2,2 МГц; 1 Гбайт RAM, IDE-винчестер Seagate, 160 Гбайт, 7200 об./мин.; Windows XP) был установлен набор программ: dtSearch Desktop, «Ищейка Проф Deluxe», Google Desktop Search, SearchInform, Copernic Desktop Search, ISYS Desktop. Для тестов была скомпонована текстовая база документов в форматах doc, txt и html общим объемом 20 Гбайт. Группа товарищей под руководством вашего покорного слуги тестировала, сравнивала и делилась своими субъективными впечатлениями по каждой софтине.

dtSearch Desktop 7.0

Разработчик: dtSearch Corp.

Официальный сайт: www.dtsearch.com

Цена: $199

Размер дистрибутива: 23,1 Мбайт

Интерфейс dtSearch довольно прост, но некоторые окна или вкладки перегружены элементами, из-за чего создается впечатление сложности использования. Единственным действительно неприятным моментом является отсутствие русскоязычного интерфейса, хотя искать документы программа может на нескольких языках. Зато dtSearch одна из немногих утилит, которая может индексировать веб-страницы на заданную пользователем «глубину» (для этого, правда, нужно докупить адд-он dtSearch Spider).

Имеется морфологический поиск (слово во всех морфологических формах), поиск с коррекцией ошибок (с опечатками) и поиск с использованием синонимов. dtSearch может производить поиск с использованием фраз, состоящих из слов, соединенных логическими операциями. Каждому слову в запросе можно устанавливать свой вес.

В общем и целом неплохая программа из разряда профессиональных поисковиков. Накладок с русским текстом при поиске не было. Как не было их ни с заявленной морфологией, ни с нечетким поиском. Система вполне адекватно находила нужные документы и по простому запросу в одно слово, и при использовании в качестве ключевой фразы пары абзацев документа.

iSYS Desktop 7.0

Разработчик: iSYS Search

Официальный сайт: www.isys-search.com

Цена: $570

Размер дистрибутива: 38,8 Мбайт

Очень мощная программа, но размер установочного файла больше 40 Мбайт! Интерфейс весьма симпатичный, но разобраться, где и что находится, куда нажимать и где наконец-то осуществить поиск, новичку будет непросто: запросы для поиска вводятся при помощи запуска одной программы, а управление индексами производится при помощи другой. Поисковые запросы вводятся также в отдельных появляющихся окошках. Ко всему прочему не поддерживается русский язык.

Возможности по созданию индексов включают в себя несколько готовых шаблонов (по папке «Мои документы», «Почта», «Почта и документы», «Определенная папка», «Папка с выбором типов файлов» и др.). ISYS Desktop умеет индексировать информацию из различных источников данных и предоставляет для этого множество настроек. Дополнительные возможности: поддержка SQL, FTP, TRIM Context, WORLDOX 2002, скрипты, планировщик индексации.

Из продвинутых функций программа предлагает использование синонимов, фильтра сортировки (по пути, имени и дате создания файла). Удивило то, что отсутствует поиск с использованием морфологии. Кроме того, нет списка значимых слов, зато имеется обширный список слов незначимых. Также заявлены функции «приблизительный поиск» и «эвристический анализ».

Результаты поиска весьма информативны, отображаются в виде списка документов, отсортированных по релевантности. К сожалению, предпросмотр документа доступен лишь в виде обычного текста, добиться отображения файлов в родном формате, будь то Word, Html или PDF, так и не удалось. Программа позволяет разбивать найденные документы на группы по определенным признакам (по умолчанию они разделены по релевантности).

Google Desktop Search + GDE Enterprise

Разработчик: Google

Популярные книги

Болотник 2

Панченко Андрей Алексеевич
2. Болотник
Фантастика:
попаданцы
альтернативная история
6.25
рейтинг книги
Болотник 2

Смерть может танцевать 2

Вальтер Макс
2. Безликий
Фантастика:
героическая фантастика
альтернативная история
6.14
рейтинг книги
Смерть может танцевать 2

Кодекс Охотника. Книга XVII

Винокуров Юрий
17. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Охотника. Книга XVII

Бывшие. Война в академии магии

Берг Александра
2. Измены
Любовные романы:
любовно-фантастические романы
7.00
рейтинг книги
Бывшие. Война в академии магии

Камень. Книга вторая

Минин Станислав
2. Камень
Фантастика:
фэнтези
8.52
рейтинг книги
Камень. Книга вторая

Не кровный Брат

Безрукова Елена
Любовные романы:
эро литература
6.83
рейтинг книги
Не кровный Брат

Бальмануг. (Не) Любовница 1

Лашина Полина
3. Мир Десяти
Фантастика:
юмористическое фэнтези
попаданцы
5.00
рейтинг книги
Бальмануг. (Не) Любовница 1

Промышленникъ

Кулаков Алексей Иванович
3. Александр Агренев
Приключения:
исторические приключения
9.13
рейтинг книги
Промышленникъ

Архил…? Книга 3

Кожевников Павел
3. Архил...?
Фантастика:
фэнтези
попаданцы
альтернативная история
7.00
рейтинг книги
Архил…? Книга 3

Последняя Арена 3

Греков Сергей
3. Последняя Арена
Фантастика:
постапокалипсис
рпг
5.20
рейтинг книги
Последняя Арена 3

6 Секретов мисс Недотроги

Суббота Светлана
2. Мисс Недотрога
Любовные романы:
любовно-фантастические романы
эро литература
7.34
рейтинг книги
6 Секретов мисс Недотроги

Мама из другого мира...

Рыжая Ехидна
1. Королевский приют имени графа Тадеуса Оберона
Фантастика:
фэнтези
7.54
рейтинг книги
Мама из другого мира...

Отец моего жениха

Салах Алайна
Любовные романы:
современные любовные романы
7.79
рейтинг книги
Отец моего жениха

Выжить в прямом эфире

Выборнов Наиль Эдуардович
1. Проект Зомбицид
Фантастика:
боевая фантастика
постапокалипсис
рпг
5.00
рейтинг книги
Выжить в прямом эфире