Читать «Яндекс Воложа. История создания компании мечты» онлайн - страница 38

Владислав Юрьевич Дорофеев

Через некоторое время Сегалович собрался в США. «Но Аркаша — человек хитрый, он как чувствовал, что нельзя было проект из рук упускать! Да и бизнес пошел, деньги появились, помню, мы однажды заключили 90 контрактов за три дня! Тогда мы подружились с Институтом проблем передачи информации, с Юрием Дерениковичем Апресяном (заведующий лабораторией компьютерной лингвистики, академик РАН. — В.Д.), он возглавлял, возможно, лучшую в стране команду лингвистов. Мы купили у них словарь, с ним надо было что-то делать… Аркадий сказал мне: “Давай!” И на меня свалилась та работа, которая меня как-то сразу увлекла, и совсем расхотелось куда бы то ни было уезжать. Я занялся плотно морфологией, лингвистикой, стал писать поисковую часть», — вспоминал Сегалович.

«У человека бывает две-три хороших идеи в жизни (третья идея, по словам Воложа, — это выход “Яндекса” в сентябре 2011 г. на поисковый рынок Турции; интересно, какая же была первая идея: неужели обучение прикладной математике? Или все же женитьба? — В.Д.), и похоже, что тогда возникла одна из таких. Идея простая: если соединить две хорошие технологии — поиск и лингвистику, получится интересный продукт. Мы сделали поиск с морфологией». Так позже будет оценивать тот интеллектуальный прорыв Волож, который сам только спустя годы сумел оценить его значение.

Морфология (от греч. morhpe — форма, logos — учение) изучает слова как части речи — с точки зрения их грамматических свойств. Морфология — это наука о правилах словоизменения и словообразования. Основа морфологии: корень, суффикс, приставка, окончание (или флексия — самая большая головная боль разработчиков русскоязычных поисковиков), которое способно меняться в зависимости от рода, числа и падежа. Морфология русского языка еще в 1970-х гг. была исчерпывающе описана Андреем Анатольевичем Зализняком, будущим академиком Российской академии наук. Результатом этого научного прорыва стали базовые труды для русской морфологии — «Русское именное словоизменение» (1967) и особенно «Грамматический словарь русского языка» (1977), в котором для 100 000 слов русского языка указана точная модель словоизменения и предложена классификация самих этих моделей. Этот словарь стал основой для разработки компьютерных программ автоматического морфологического анализа, в том числе в информационном поиске, в машинном переводе. Именно этот труд лег в основу алгоритма «Яндекса» и других поисковиков, основанного на морфологическом принципе опознавания слов.

Через некоторое время в помощь Сегаловичу отрядили Михаила Маслова, Дмитрия Тейблюма, Сергея Ильинского и Леонида Бровкина. Во главе с Сегаловичем эта группа программистов написала программу морфологического анализа для версии программы на новом словаре. В результате поиск был серьезно улучшен и ускорен. Первым продуктом, по словам Воложа, стала усовершенствованная программа поиска в международном классификаторе изобретений объемом почти 10 МБ. Словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300 КБ, то есть целиком грузился в оперативную память и работал очень быстро. С этого момента пользователь мог задавать в запросе любые формы слов.