Читать «Популярная информатика» онлайн - страница 44

Николай Николаевич Чурсин

Таковы принципы работы ИПС с ИПЯ дескрипторного типа. Качество их работы во многом зависит от совершенства применяемого информационно-поискового тезауруса. Поэтому требования к ИПТ очень высоки. В нем не должно быть, например, терминов, выражающих одно и то же понятие, т. е. синонимов — это привело бы к потерям информации при поиске. Кроме этого, должны быть зафиксированы некоторые отношения между терминами (род — вид, часть — целое и другие), служащие целям повышения точности и полноты поиска.

Обычно информационно-поисковые тезаурусы оформляются в виде книг. Лексику тезаурусов составляют не только дескрипторы, но и их синонимы, которые не являются дескрипторами. Присутствие в тезаурусе синонимов имеет большое значение. Поясним это на примере.

Пусть имеется два термина: «Абразивы порошкообразные» и «Порошки абразивные». Ясно, что они выражают одно и то же понятие. Но одно понятие не может быть представлено в тезаурусе двумя различными терминами! Это значило бы, что при поиске документов на запрос, содержащий термин «Абразивы порошкообразные», поисковая система не выдала бы документы, содержащие в поисковом образе термин «Порошки абразивные», хотя они подлежат выдаче, так как соответствуют запросу.

Использование синонимичных терминов приводит к потерям информации. Чтобы предотвратить это, из двух (в данном случае) синонимов в качестве дескриптора выбирают один — термин «Абразивы порошкообразные», — а другой снабжают отсылкой к первому (пометкой): см. «Порошки абразивные». Такая пометка означает, что вместо одного термина при составлении поисковых образов документов или запросов следует использовать другой, являющийся дескриптором. Именно так ликвидируется в тезаурусах синонимия.

Если из нескольких синонимов один выбран в качестве дескриптора, то остальные (в нашем случае это термин «Порошки абразивные») при этом получают название ключевых слов. Наличие в тезаурусе ключевых слов с отсылками к соответствующим дескрипторам облегчает индексирование документов, обеспечивает быстрый поиск нужного термина, способствует повышению качества функционирования ИПС.

Тезаурус является необходимым лингвистическим пособием любой механизированной или автоматизированной информационно-поисковой системы, использующей ИПЯ дескрипторного типа.

Первые тезаурусы, удовлетворяющие специфическим задачам информационного поиска, были разработаны в начале 60-х годов нашего века.

В соответствии с тематическим профилем различают многоотраслевые, отраслевые и узкотематические тезаурусы. Наиболее известны из информационно-поисковых тезаурусов следующие:

тезаурус АСТИА (Агентство службы технической информации США) — 1-е издание в декабре 1962 г.;тезаурус технических и научных терминов, наиболее крупный из существующих тезаурусов (23364 слова, из которых 17810 слов выступают в качестве дескрипторов). Этот труд, вышедший в свет в декабре 1967 г., представляет собой совместное издание Документального центра Министерства обороны США и Объединенного совета инженеров; тезаурус научно-технических терминов под общей редакцией Ю.И. Шемакина (М., Воениздат, 1972 г.). Этот тезаурус, включающий 19000 терминов, из которых 15000 являются дескрипторами, может служить примером отечественного многоотраслевого тезауруса.