Читать «Яндекс Воложа. История создания компании мечты» онлайн - страница 38
Владислав Юрьевич Дорофеев
Через некоторое время Сегалович собрался в США. «Но Аркаша — человек хитрый, он как чувствовал, что нельзя было проект из рук упускать! Да и бизнес пошел, деньги появились, помню, мы однажды заключили 90 контрактов за три дня! Тогда мы подружились с Институтом проблем передачи информации, с Юрием Дерениковичем Апресяном (заведующий лабораторией компьютерной лингвистики, академик РАН. —
«У человека бывает две-три хороших идеи в жизни (третья идея, по словам Воложа, — это выход “Яндекса” в сентябре 2011 г. на поисковый рынок Турции; интересно, какая же была первая идея: неужели обучение прикладной математике? Или все же женитьба? —
Морфология (от греч. morhpe — форма, logos — учение) изучает слова как части речи — с точки зрения их грамматических свойств. Морфология — это наука о правилах словоизменения и словообразования. Основа морфологии: корень, суффикс, приставка, окончание (или флексия — самая большая головная боль разработчиков русскоязычных поисковиков), которое способно меняться в зависимости от рода, числа и падежа. Морфология русского языка еще в 1970-х гг. была исчерпывающе описана Андреем Анатольевичем Зализняком, будущим академиком Российской академии наук. Результатом этого научного прорыва стали базовые труды для русской морфологии — «Русское именное словоизменение» (1967) и особенно «Грамматический словарь русского языка» (1977), в котором для 100 000 слов русского языка указана точная модель словоизменения и предложена классификация самих этих моделей. Этот словарь стал основой для разработки компьютерных программ автоматического морфологического анализа, в том числе в информационном поиске, в машинном переводе. Именно этот труд лег в основу алгоритма «Яндекса» и других поисковиков, основанного на морфологическом принципе опознавания слов.
Через некоторое время в помощь Сегаловичу отрядили Михаила Маслова, Дмитрия Тейблюма, Сергея Ильинского и Леонида Бровкина. Во главе с Сегаловичем эта группа программистов написала программу морфологического анализа для версии программы на новом словаре. В результате поиск был серьезно улучшен и ускорен. Первым продуктом, по словам Воложа, стала усовершенствованная программа поиска в международном классификаторе изобретений объемом почти 10 МБ. Словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300 КБ, то есть целиком грузился в оперативную память и работал очень быстро. С этого момента пользователь мог задавать в запросе любые формы слов.