Читать «Яндекс Воложа. История создания компании мечты» онлайн - страница 44
Владислав Юрьевич Дорофеев
Кстати, полученные за работу над академическими изданиями русских классиков $20 000 позволили вдвое увеличить команду программистов под проект, который вдохновенно вел Сегалович. На протяжении 1996 г. параллельно с изготовлением цифровых копий русской классики шла подготовка к запуску собственной поисковой машины в Интернете.
Под руководством Сегаловича был разработан алгоритм построения гипотез. Теперь морфологический разбор не привязывался к словарю. Отныне, если какого-либо слова в словаре не оказывалось, модель словоизменения строилась на основе поиска похожих на него слов.
Илья Сегалович: «В 1995 г. мы наконец подключились к Интернету, и всем сразу стало понятно, что надо для него что-то делать… Посмотрели на поиск Altavista и поняли, что надо делать вещи для Интернета».
Владельцы и руководители CompTek пришли к выводу, что развитие самой поисковой технологии важнее и интереснее, чем создание прикладных продуктов на базе поиска. В итоге было принято решение об использовании поискового приложения Яndex для Интернета.
18 октября 1996 г. на выставке Netcom’96 были представлены первые продукты серии «Яndex»: Яndex.Site — поиск по своему сайту, до сих пор установленный на сотнях серверов Рунета, и Яndex.Dict, морфологическое расширение запроса.
25 ноября приложение Яndex.Dict заработало на поисковике AltaVista.
«И уже к 1996 г., работая одновременно над Грибоедовым, мы дописали “Яндекс”, чтобы он работал в Сети», — вспоминал Сегалович.
В 1996 г. в мировую Сеть вышел поисковик «Рамблер», созданный группой инженеров Института биохимии и физиологии микроорганизмов РАН. Лидера, и затем главного конкурента «Яндекса» в Рунете.
До интернет-премьеры «Яндекса» оставался год.
Существующие к тому моменту в Рунете поисковики AltaVista (переводится как «взгляд сверху»; появился в декабре 1995 г.) и «Рамблер» (переводится как «бродяга»; работает в Сети с октября 1996 г.) искали по английскому принципу. Но в английском языке слова практически не склоняются. Русский и английский принадлежат к разным группам, к их анализу следует подходить по-разному. Русский язык принадлежит к группе флективных языков — различные словоформы получаются с помощью окончаний. Имя существительное, например, может встречаться в 12 различных формах: шесть падежей в единственном числе и еще шесть — во множественном. Некоторые существительные образуют новые словоформы с помощью изменения основы слова. Поэтому для поиска в русскоязычном тексте поисковые машины должны использовать сложные лемматизирующие алгоритмы, которые предполагают составление леммы слова, то есть перечень всех его словоформ, и учет всех этих словоформ в документе.
В английском падежей меньше, корни слов изменяются только в исключительных случаях, например в неправильных глаголах. Для анализа английских текстов поисковые машины используют стемминг, то есть анализ по основе слова. То есть англоязычным поисковикам, чтобы понять русскую речь, надо менять алгоритм поиска в соответствии с русской морфологией.