Читать «Журнал «Компьютерра» №31 от 30 августа 2005 года» онлайн - страница 38

Журнал 603 Компьютерра

Впрочем, даже если новый пейджер и не завоюет «приз зрительских симпатий», стратеги Google не слишком огорчатся. Как-никак, нынешнее «IM-сражение» - всего лишь эпизод в борьбе за глобальное господство над сердцами интернетчиков. Постепенно, месяц за месяцем Google опутывает Интернет паутиной своих сервисов, ложащихся впритирку друг к другу, как кирпичи. Не дремлют и конкуренты: так, встревожившись появлением нового соперника, Yahoo! заявила о желании открыть свои программные интерфейсы. Что касается компании Skype, то она не ограничилась благими намерениями: недавно с ее подачи на свет появились сразу два пакета - SkypeWeb и SkypeNet, позволяющие вкрутить мощные пейджеры в кустарные творения независимых разработчиков. Не иначе, скоро нас ждет война открытых «интернет-операционок». - Д.К.

Маленький шажок для Гугла - большой шаг для…

Гугловские инженеры-исследователи в очередной раз доказали, что круче них в мире, кажется, никого и нету. На ежегодном соревновании систем автоматизированного перевода, закончившемся 1 августа, победила Google Machine Translation System.

Впрочем, «победила» - не совсем правильное слово. Мероприятие Machine Translation Evaluation, ежегодно проводимое американским Национальным институтом стандартов и технологий, - это не соревнование с победителями и ценными призами, а, скорее, попытка оценить уровень развития индустрии. В этой оценке участвуют, как правило, не коммерческие системы, а исследовательские проекты (в том числе, проекты производителей коммерческих систем). В этом году соревнования состояли из четырех заданий - двух по переводу с арабского на английский (перевод «большого набора данных» и «огромного набора данных») и двух по переводу с китайского на английский. Исходные данные представляли собой большое количество статей новостных агентств France Presse и Xinhua News. Оценка качества перевода выполнялась автоматически, по методике BLEU, разработанной IBM, - путем статистического сравнения результатов машинного перевода с переводами, выполненными профессионалами. Качество выражалось дробью между "0" и "1" (1 - идеальный перевод).

Вот в этих-то сравнениях и победила система, сделанная в Google. Мало того что только эта система поучаствовала во всех четырех этапах - во всех четырех же она и дала лучший результат (около 0,51 для арабского и 0,35 для китайского языков; назвать это «победой», конечно, трудно, но хорошим результатом - можно вполне).

Главная ценность этого результата - в том, что он доказал преимущество методики перевода, используемой «Гуглом». Эта новаторская методика совершенно не подразумевает сложного синтаксического и семантического анализа текста - используются чисто статистические методы. Владея огромными массивами текстовых документов, «Гугл» построил базу статистических соответствий типа «такому-то набору китайских слов обычно соответствует такой-то набор английских». В целом идея не нова - профессиональным переводчикам она известна под названием Translation Memory. Правда, системы Translation Memory подразумевают накопление переведенных фраз только одного переводчика - а использовать Сеть как гигантскую всемирную Translation Memory придумал именно «Гугл». Machine Translation Evaluation показало, что такой подход имеет огромные перспективы.