Читать «Журнал «Компьютерра» № 15 от 17 апреля 2007 года» онлайн - страница 62

Компьютерра

Каждому по поиску

Автор: Янковский, Роман

Наступившая эпоха Web 2.0 затронула и поисковики. Один за другим появляются различные специализированные поисковые системы (например, scholar.google.com, google.com/codesearch, koders.com и др.). В этой статье автор хотел бы поделиться впечатлениями о сервисах, позволяющих создать свой тематический поисковик.

Первая ласточка

Около года назад ЗАО «Поисковые технологии» запустило бета-версию «Персонального поиска» в рамках проекта «Новотека», который позволил желающим создавать свои тематические поисковые системы. Предлагается несколько вариантов использования сервиса «Новотека», в том числе и бесплатный (в результатах поиска которого демонстрируется реклама). Платные варианты отличаются размером дисковой квоты и количеством разрешенных за месяц запросов. Также они позволяют экспортировать результаты поиска в XML-формате.

Автор тематического поисковика должен настроить поискового робота, указывая ему точки входа на сайты (страницы, с которых начнется индексация содержимого сайта) и маски, по которым робот будет отбирать ссылки на веб-страницы для скачивания. Размер поисковой базы ограничен дисковой квотой, которая в бесплатном варианте составляет 1 Гбайт — этого объема достаточно в большинстве случаев. Некоторые из поисковиков, разработанных на базе «Новотеки», обрели популярность. Например, поиск по антивирусным сайтам от Игоря Ашманова или по ресурсам для поисковых оптимизаторов.

Несмотря на жесткие правила регистрации новых посетителей, уже опубликовано более 550 поисковых систем на различные темы — от электронных библиотек и научных сайтов до недвижимости и тендеров.

Следующим этапом эволюции «Персонального поиска» станет проект Flexum, запуск которого запланирован на середину апреля. Как обещают разработчики, пользователи «Персонального поиска» будут автоматически перенесены во Flexum, но об этом чуть позже.

Гигант поиска, в том числе тематического

Через несколько месяцев после запуска «Персонального поиска» и Google объявил об открытии сервиса Google Custom Search Engine. Поисковому гиганту нет нужды в выделении дополнительных мощностей под хранение данных тематического поиска, достаточно лишь использовать уже существующую базу.

Как раз благодаря использованию готовой глобальной базы отпадает надобность в поисковом роботе — достаточно настроить фильтрацию существующей поисковой базы. Настройка Google CSE — гибкая, простая и интуитивно понятная — заключается в указании фрагментов ссылок на страницы, которые будут использоваться в тематическом поиске. У автора поисковика также есть возможность присвоить сайтам теги, выбирая которые, пользователь сможет лучше конкретизировать запрос.