Читать «Введение в лингвофольклористику: учебное пособие» онлайн - страница 103

Александр Тимофеевич Хроленко

Информационные технологии можно классифицировать как коллективные и индивидуальные. Коллективные технологии делятся на технологии общего пользования, способные решать неограниченный круг задач, и технологии специализированные, тематические, создаваемые с целью решения определённых задач. К первым относятся технологии, основанные на корпусной лингвистике. Ко вторым можно отнести, например, ресурсы для исследования топонимии. Индивидуальными можно назвать те, которые создаются если не самим пользователем, то при активном его участии и ориентированы на решение определённых исследовательских задач.

Начнём с вопроса, в какой реальной помощи со стороны информатики нуждается гуманитарий-исследователь? Ответ: в наличии электронного корпуса текстов и программном обеспечении, позволяющем быстро и точно представлять пользователю все необходимые языковые единицы в отвлечении от текста и в форме конкорданса. Информационная технология должна дать сведения о наличии требуемого элемента, его количестве (словоупотреблении) и функции в контексте. В итоге в руках исследователя должен оказаться своеобразный текстовый информационный комплекс: текст – программа – промежуточные вспомогательные материалы, полученные с помощью программы на базе привлечённого текста.

Как используются индивидуальные информационные системы, покажем на примере созданного нами информационного текстового комплекса «Конкорданс русской народной лирики».

Из семитомного свода А.И. Соболевского «Великорусские народные песни» (СПб., 1895–1902) (тома 2–6) были извлечены песенные тексты, записанные в XIX веке в Курской, Архангельской и Олонецкой губерниях. Также учитывались былинные тексты, записанные А.Ф. Гильфердингом от Т.Г. Рябинина. В итоге сформировались четыре корпуса текстов – «Курск», «Архангельск», «Олонец» и «Рябинин».

Тексты подверглись некоторой адаптации: были сняты все примечания и указания на место записи, сборник и год публикации, каждый текст получил паспорт – в ломаных скобках номер тома свода Соболевского / Гильфердинга и номер песни / былины в томе. В результате каждый корпус превратился в единый текст, похожий на гипертекст, под которым понимается некое информационное пространство, позволяющее разрушить формальную оболочку отдельного конкретного текста, в него помещённого, за счёт создания системы связей, служащих объединению этих отдельных текстов в сверхтекстовые единства [Дедова 2003: 106–107]. В нашем случае гипертекст – это корпус текстов, представленный одним файлом в текстовом формате с системой паспортизации.