Читать «Юный техник, 2001 № 05» онлайн - страница 24

Журнал «Юный техник»

Недостатки: значительное количество «информационного шума» в результирующем списке (ссылок на сайты, в содержимом которых заданное ключевое слово употреблено лишь формально).

Пример: поисковая служба «Яндекс» (рис. 1).

Рис. 1

«Пауки» — автономные программные модули, рассылаемые поисковым сервером на анализируемые сайты. Обычно «паук» выполняет сбор информации об анализируемом сайте, ее первичную обработку (создание «информационной выжимки») и пересылку на поисковый сервер, где основная программа добавляет эти сведения в базу данных. При обнаружении на анализируемом сайте ссылок на другие сайты «паук» может отправлять на них свои копии. После завершения работы «паук» самоуничтожается.

Технология «пауков» позволяет включить в сферу поиска максимально возможное количество сайтов, но у многих специалистов вызывает опасение тот факт, что способность этих программных модулей к автономной работе на других серверах (точнее, заложенное в системах безопасности этих серверов разрешение на допуск «паука» к информации и его запуск на исполнение) может стать «лазейкой» для создателей компьютерных вирусов и каких-либо разрушительных действий.

• Логика построения поискового запроса — правила, позволяющие формировать правильную ключевую фразу из набора ключевых слов. В зависимости от поставленной поисковой задачи возможны следующие ситуации:

— точное соответствие, когда в искомом тексте должна присутствовать именно эта фраза и никакая иная (пример: компьютерная мышь);

— в искомом тексте должны находиться все заданные ключевые слова (пример: мопеды И мотоциклы);

— достаточно, если в искомом тексте присутствует хотя бы одно ключевое слово (пример: самолет ИЛИ вертолет);

— одно или несколько ключевых слов не должно входить в искомый текст (скажем, чтобы отсечь большой массив «ложных» ссылок; пример: локомотив НЕ футбол).

Иногда отдельно рассматривается ситуация, когда еще заданные ключевые слова должны не только присутствовать в тексте, но и располагаться рядом, например, в пределах одного абзаца. Важным часто является и регистр букв (строчной или прописной), например, ключевое слово «лебедь» позволяет найти и птицу, и генерала, а «Лебедь» — только фамилию.

Современные поисковые серверы, как правило, предоставляют возможность ввода ключевой фразы в свободной форме и автоматически выполняют ее смысловую предобработку: выделение ключевых слов с отсечением незначащих (предлогов, местоимений и пр.), вариации окончаний слов, иногда автоматический перевод фразы на другие языки (например, заданная пользователем фраза «книги по программированию на Бейсике» автоматически превращается в запрос типа: (книга ИЛИ книге ИЛИ книгу ИЛИ книги ИЛИ книг ИЛИ book ИЛИ books) И (программирование ИЛИ программированию ИЛИ программирования ИЛИ programming) И (Бейсик ИЛИ Бейсике ИЛИ Бейсика ИЛИ Бейсику ИЛИ Basic ИЛИ BASIC). Кроме того, при задании нескольких ключевых слов в результирующий список могут включаться и сайты, в которых содержатся не все эти ключевые слова (на поисковом сервере «Яндекс» в этом случае после аннотации, помещенной в результирующий список, делается примечание: «Нестрогое соответствие»). Дополнительно предусматривается сортировка найденных ссылок в списке по «релевантности» — этот термин подразумевает максимальное соответствие найденных страниц заданному ключу поиска, которое программа определяет на основе анализа количества вхождений ключевых слов в текст, место, в котором они обнаружены (наиболее подходящими, например, считаются страницы, где ключевые слова обнаружены в заголовке документа), благодаря использованию алгоритмов «искусственного интеллекта» (хотя они пока еще далеко не совершенны). Соответственно, в результирующем списке наиболее подходящие ссылки выдаются первыми.