Читать «Популярная информатика» онлайн - страница 42

Николай Николаевич Чурсин

Коэффициент полноты поиска R определяется отношением числа выданных в результате поиска релевантных документов к общему числу релевантных документов, как выданных, так и оставшихся невыданными;

R = a / (a + c).

Коэффициент точности поиска P представляет собой отношение количества выданных релевантных документов к общему числу документов в выдаче: P = a / (a + b), где a — число релевантных документов в выдаче; c — число релевантных документов, оставшихся невыданными (потери информации); b — число выданных нерелевантных документов (поисковый шум).

В результате сказанного возникает вопрос: возможен ли такой ИПЯ, который бы точно передавал смысл документа, т. е. ИПЯ, обеспечивающий максимальные точность и полноту поиска? Ответ на этот вопрос очень важен для понимания специфики документальных ИПС. Компьютер может мгновенно распечатать содержание накладной № 201375, хранящейся в его памяти, или из сотен фамилий работников предприятия безошибочно отыскать и начислить Сидорову Ивану Петровичу месячную заработную плату. Поиск такого рода широко используется в АСУ. В этом случае поиск производится по внешним признакам объектов: номеру накладной, фамилии и т. д. Если применить этот же принцип к поиску научных документов, то по формату и количеству страниц ЭВМ укажет адрес в хранилище всех книг и журналов конкретного формата (если, конечно, они введены в память ЭВМ).

Совершенно иначе обстоит дело с поиском документов по их содержанию. Информация, содержащаяся в научных документах, объективно подчиняется закону рассеяния. Это значит, что в одном случае в ответ на запрос ИПС может выдать несколько профильных публикаций, точно отвечающих на него, не выдав релевантную информацию, рассеянную среди большого количества других источников, в другом — может выдать и релевантную информацию. Полнота поиска возрастет. Однако в этом случае будет иметь место больший поисковый шум. Исходя из этого можно сделать вывод о принципиальной невозможности одновременного достижения стопроцентной полноты и такой же точности при поиске научных документов. Увеличивая полноту поиска, мы неизбежно уменьшаем его точность и наоборот, увеличивая точность поиска, уменьшаем его полноту.

Точному переводу содержания документа на ИПЯ — индексированию — препятствует субъективное восприятие содержания выполняющим перевод. В результате одни и те же документы могут быть проиндексированы по-разному. Неточность описания содержания документов при помощи любого ИПЯ не может не сказаться при их поиске.

Отсюда следует, что для документальных ИПС не может быть разработан ИПЯ, который обеспечивал бы стопроцентную полноту и точность выдачи документов. Однако это не значит, что не следует стремиться к максимально точной передаче содержания документов при переводе их на ИПЯ. Именно от этого во многом зависит качество работы всей ИПС. Поэтому при разработке автоматизированных ИПС большое внимание необходимо уделять выбору ИПЯ.

В настоящее время разработано большое количество информационно-поисковых языков, различных по назначению и принципам построения. Существуют, например, информационно-поисковые языки, основанные на различных классификациях, так называемые ИПЯ классификационного типа. Работа ИПС с таким ИПЯ схематично может быть представлена следующим образом.