Читать «Интернет-разведка. Руководство к действию» онлайн - страница 5
Евгений Леонидович Ющук
Это хорошо видно на примере первой страницы Яндекса, где под поисковой строкой размещается список директорий, которые позволяют пользователю уточнять запрос по мере продвижения в глубь каждой из них.
Ввиду того, что принцип организации директорий понятен каждому, кто пользовался библиотечным каталогом – а среди читателей таких, смеем полагать, подавляющее большинство, – мы не будем подробно останавливаться на технике работы с директориями и уделим больше внимания работе с поисковыми машинами. В завершение же разговора о каталогах приведем пример «цепочки», по которой осуществляется поиск в каталоге Яндекса: Бизнес > Реклама > Реклама в Интернете.
Все поисковые машины работают по одному и тому же алгоритму и основаны на одних и тех же принципах. Различия между ними возникают лишь на уровне технической реализации этих принципов в работе.
Чтобы понять принцип работы поисковой машины, попробуем разделить вопрос на две части: на чем основан поиск и как он реализован.
На чем основан поиск
Все поисковые машины базируются на трех основных операторах, лежащих в основе Булевой алгебры (ее также называют Булевой логикой или Boolean).
Это логические операторы «И», «ИЛИ» и «НЕ». Работают они следующим образом.
1. Логическое «И». Если между двумя словами в запросе стоит оператор «И», то в результате поиска будут найдены лишь те документы, в которых содержатся оба слова. Так, например, по запросу собака И кошка будет найден документ, содержащий предложение
2.
Если мы не сделаем специальных ограничительных оговорок, то материалы, в которых оба эти слова присутствуют, также будут найдены.
По запросу собака ИЛИ кошка мы получим документы, исключенные в прошлом запросе и содержащие текст
3.
На самом деле, чтобы понять важность логического оператора «НЕ», имеет смысл вспомнить, что наш запрос не создает в Интернете ничего нового. Мы лишь выуживаем то, что нам нужно, из имеющегося огромного, но все же конечного массива. При этом необходимо отсечь информационный мусор. Его-то мы и отсекаем с помощью оператора «НЕ». К сожалению, не нам решать, увидим ли мы этот мусор в выдаче. Так, например, по запросу сведений о коньке крыши неизменно появляется информационный мусор в виде документов о Коньке-Горбунке, фигурном катании, хоккее, лошадях и т. п. Без логического «НЕ» тут никак не обойтись.