Читать «Яндекс Воложа. История создания компании мечты» онлайн - страница 153

Владислав Юрьевич Дорофеев

На середину августа 2011 г. ответы на английском языке предпочитали около 8 % пользователей «Яндекса». «Рейкьявик» обращает внимание только на запросы на английском языке. Он отфильтровывает латинскую транслитерацию русскоязычных запросов, адреса сайтов, ошибки раскладки клавиатуры и т. д. При этом сам англоязычный вопрос не всегда означает поиск такого же ответа, уточняют в компании. Например, по запросам beatles или rothko человек может искать и русские сайты. «Рейкьявик» учитывает, часто ли пользователь открывает из результатов поиска веб-страницы на английском. Собранная информация о том, нужны ли пользователю англоязычные ресурсы, используется при ранжировании. И если они нужны, человек видит среди первых результатов поиска больше ссылок именно на них. Новый поисковый алгоритм специалисты «Яндекса» характеризуют как первый шаг в направлении создания технологии персонализации англоязычного поиска.

«Рейкьявик» был следующим шагом в глобальной битве за лидерство поисковиков после 19 мая 2010 г., когда «Яндекс» предложил пользователям поиск по англоязычным ресурсам. А что делать, если русскоязычный мир ограничен по определению, по факту 7–10 % народонаселения планеты? Это Baidu — единственный на сегодня национальный конкурент «Яндекса» — может быть спокоен: у него поисковая база роста — четверть населения планеты, есть куда развиваться и без дополнительных усилий, а главное, инвестиций в освоение англоязычного сектора Сети. Я сейчас говорю даже не о финансовой составляющей роста, хотя и в этом смысле Baidu обеспечен перспективой, опираясь на крупнейшую после США экономику — экономику Китая.

Россия, конечно, растет, но не такими темпами, а русскоязычный мир за пределами страны, скорее всего, со временем будет сужаться. Поэтому единственный реальный способ роста — освоиться в англоязычном секторе Сети, как всегда самом крупном.

Кстати, в русле этой стратегии произошло открытие в 2011 г. собственного дата-центра в США.

С августа 2011 г. «Яндекс» в рамках соглашения с компанией WeSee (ориентировочной стоимостью в несколько миллионов долларов) реализовал технологию piFilter, позволяющую распознавать нежелательный контент в изображениях. Это означает, что «Яндекс» к умению распознавать порнографический контент по словам и ссылкам (с 2009 г.) добавил еще один фильтр. Причем сделал это первым из российских интернет-компаний.

В 2011 г. в качестве подарка к началу нового учебного года «Яндекс» внедрил технологию таргетинга медийной рекламы «Крипта». Это означает, что к умению таргетировать рекламу по географии и частоте показа «Яндекс» первым среди мировых поисковиков, торгующих контекстной рекламой, добавил способность разделять показы контекстной рекламы по возрасту, полу и доходам, сообщил директор по развитию медийных продуктов компании Лев Глейзер. «Крипта» создана на основе метода машинного обучения «Матрикснет», реализованного в 2009 г. «Крипта» умеет анализировать поведение пользователей в Интернете и разделять их на группы, основываясь на анализе около 300 показателей. Технологию определения характеристик посетителей отрабатывали на основе данных 1 млн пользователей социальной сети деловых контактов «Мой Круг». Например, реальный пол виртуального пользователя «Крипта» научилась определять с точностью в 70 %. Оказывается, что женщины составляют более длинные поисковые запросы (3,5 слова) и чаще используют в них вопросительные слова («что такое любовь», «как похудеть» и т. п.), а мужчины (3,2 слова) больше используют цифры и латиницу. При этом мужчины делают опечатки чуть чаще. Выяснилось также, что при деловом общении люди обычно указывают реальный возраст. Надежность данных в почтовом сервисе гораздо ниже.