Читать «Яндекс Воложа. История создания компании мечты» онлайн - страница 195

Владислав Юрьевич Дорофеев

Омонимия — совпадение слов (словоформ) с разным лексическим значением.

Паук (робот-паук) — регулярно обходит документы по заданному маршруту; если сайт на месте, то есть работает и доступен, паук выкачивает запланированные в маршруте документы. Он определяет тип скачанного документа (.html, pdf, swf и т. п.), кодировку и язык, а затем отправляет данные в хранилище.

Псевдооптимизация — попытка обмана поисковой системы и манипулирования ее результатами с целью завышения позиции сайтов (страниц) в результатах поиска; использование SEO-ссылок, которые на коммерческой основе размещаются на сторонних ресурсах (количество ссылок на страницу и их текст учитываются при ранжировании). Спрос на SEO-ссылки стимулирует наводнение Интернета сотнями тысяч бесполезных сайтов, забитых заимствованным или бессмысленным контентом.

Поиск — состоит из двух больших частей: первая — когда поисковик ищет различные документы в Интернете и составляет поисковый индекс; вторая — когда ищется ответ на конкретный запрос пользователя в уже подготовленной поисковой базе. Пользовательские запросы сначала попадают в компьютерную систему «метапоиск», который обрабатывает каждый запрос в реальном времени — выясняет все необходимые данные про запрос (из какого региона он был задан, к какому классу относится и т. п.), проводит лингвистическую обработку; затем метапоиск проверяет, формировались ли в последнее время результаты поиска для этого запроса, потому что результаты поиска по часто задаваемым запросам некоторое время хранятся в памяти метапоиска, а не формируются каждый раз заново; если вновь пришедший запрос оказался популярным, метапоиск покажет пользователю заранее сохраненные результаты. Если же ответа в памяти нет, то метапоиск передает запрос на сервера другой компьютерной системы — «базового поиска». На базовом поиске хранится слепок Интернета, по которому ищет «Яндекс», — поисковая база. Она разбита на части, которые хранятся на разных серверах — искать ответ одновременно по нескольким частям базы данных быстрее, чем по всей базе целиком. Кроме того, у каждого сервера есть несколько копий. Это позволяет распределять нагрузку и не терять данные — если один из серверов не сможет своевременно ответить, информация все равно найдется на дублирующих серверах. Из тысяч серверов базового поиска метапоиск выбирает наименее загруженные — таким образом, чтобы вместе они содержали целую поисковую базу. Каждый из серверов отдает список документов, в которых есть слова из запроса, обратно в метапоиск. Там они объединяются, ранжируются с помощью технологии «Матрикснет» и попадают на страницу результатов поиска. Благодаря такой организации поиска «Яндекс» может отвечать пользователю за доли секунды.

Поисковая база — слепок Интернета, по которому ищет поисковик; поисковый индекс, данные о типе документов, кодировке, языке и сохраненные копии документов вместе составляют поисковую базу; обновляется постоянно, но, чтобы это обновление стало доступно пользователям, ее нужно перенести на «базовый поиск». Обновление поисковой базы из хранилища основного робота попадает в поиск «пакетами» — раз в несколько дней. Этот процесс создает дополнительную нагрузку на сервера, поэтому производится ночью, когда к «Яндексу» обращается на порядок меньше пользователей. Сначала новые части базы помещаются рядом с такими же частями из прошлого обхода. Затем они проверяются по целому ряду факторов, чтобы обновление не ухудшило качество поиска. Если проверка прошла успешно, новая часть базы заменяет собой старую.