Читать «Журнал «Компьютерра» N 30 от 22 августа 2006 года» онлайн - страница 8
Журнал Компьютерра
OpenCyc является «младшим братом» коммерческой системы Cyc, обе разрабатываются одной и той же Cycorp в течение 21 (!) года (потрачено 750 человеко-лет, 75 млн. долларов). Большую часть этого времени, естественно, заняла не разработка «движка» (формата хранения знаний и запросов к базе), а наполнение базы знаниями. По утверждению Cycorp, на текущий момент объем данных достиг предела, за которым ввод новых знаний экспертами на специализированном языке уже менее эффективен, чем анализ обычных естественно-языковых текстов (объем знаний, которые при текущих темпах эксперты ввели бы за тысячу лет, планируется набрать за десять лет путем «чтения» текстов и «общения» с пользователями). По-видимому, это и есть одна из причин, заставивших Cycorp наконец-то выпустить открытую версию: компания пытается залучить энтузиастов-добровольцев для ускорения пополнения базы знаний.
Впрочем, открытую часть проекта трудно назвать щедрым подарком: из 47 тысяч понятий и 306 тысяч связей-фактов «большого Cyc’а» в OpenCyc, выпущенный под лицензией GNU LGPL, вошло всего 6 тысяч понятий и 60 тысяч фактов; кроме того, программные инструменты пополнения и чтения базы хоть и бесплатны, но код их закрыт; более продвинутые инструменты (для разбора/генерации текста на естественном языке) в открытую версию не вошли. Существует еще третий, промежуточный вариант - ResearchCyc; он тоже бесплатен, включает базу втрое большую, чем OpenCyc, и множество инструментов, - но доступен только для исследовательских целей крупным университетам. Правда, Cycorp обещает, что как только появится следующая версия «основной» базы Cyc, все содержимое ее предыдущей версии станет доступно в ResearchCyc, а все содержимое предыдущей версии ResearchCyc - в OpenCyc. Тем не менее попытка представить задачу пополнения OpenCyc «всем миром» как дело общеполезное выглядит не очень красиво, ведь это будет в первую очередь полезно для развития бизнеса фирмы.
Кроме того, Cycorp любит говорить о своей инициативе как об уникальной и неповторимой, умалчивая о других известных (и открытых) проектах подобного рода - WordNet, Open Mind Common Sense, ThoughtTreasure - некоторые из них превосходят размерами даже «основной» Cyc, не говоря уже о его открытом «огрызке». Хотя справедливости ради следует добавить, что Cyc принято считать самой подробной и качественной из таких баз. - В.Ш.