Читать «Журнал «Компьютерра» № 34 от 18 сентября 2007 года» онлайн - страница 45

Компьютерра

Архивирование. Архивы «всего» Интернета можно найти в кэше поисковиков (Google, Yahoo, MSN) или в специализированном Internet Archive; крупные участки Веба сохраняются также в некоторых региональных поисковиках или национальных архивах. Кэши поисковых машин, как правило, содержат более-менее актуальные копии страниц (навсегда «умершие» сайты из кэша исчезают) и оттого пригодны лишь для «добычи» временно недоступного контента (сайт упал, а статья нужна сегодня). Зато Internet Archive (archive.org) и его Wayback Machine (web.archive.org) позволяют получить «снимки» почти любого сайта за почти любой период его существования – «снимки» делаются примерно раз в полгода. Самое интересное, что все ссылки, ведущие со страницы, приведут тоже на заархивированные копии сайтов – таким образом, становится доступен целый "временной срез" Веба.

К сожалению, далеко не все сайты и страницы доступны таким образом. Internet Archive "не любит" страниц с "динамическими адресами" ("example.com/index.php?articleId=…"), ему недоступен Deep web (часть Веба, закрытая от индексации поисковиками), наконец, он вынужден уважать права авторов и удалять из архива копии сайтов по первому требованию владельца [А иногда и не владельца. Известен случай, когда множество антисайентологических сайтов исчезло из Internet Archive (а также из кэша Гугла) по требованию Церкви Сайентологии]. Схожие проблемы и у локальных (национальных и тематических) архивов.

Впрочем, если архивированием того-на-что-ссылка своевременно озаботится автор ссылающегося материала, ему станут доступны еще некоторые техники "архивирования по требованию". В частности, такими методами пользуются ученые, у которых научные ссылки в работах все чаще ведут в Веб, а не в статьи бумажных журналов. Автор может, во-первых, сохранить все материалы, на которые сослался, в специальном месте – например, у себя на сайте (что, впрочем, может быть чревато копирайтными трудностями) или в специализированном сервисе (знающем, как с такими трудностями справиться) [Самый популярный из такого рода архивов – WebCite (webcitata.org) – на момент написания статьи был недоступен (sic!)].

ПРОРОЧЕСТВО

Пожнут твои плоды потомки.

Публий Вергилий

Кроме того, можно не трогать залинкованные материалы, зато поставить на них ссылки в одном из "адресо-независимых форматов" – PURL (Persistent URL) или DOI (digital object identifier). Этот способ основан на том, что для каждой статьи, ссылку на которую необходимо сохранить доступной, ссылающийся заводит запись на специальном сервере (PURL-сервере или DOI-сервере соответственно), в которой и поддерживает лично актуальность ссылки (по необходимости изменяя ее адрес, перенаправляя ее в какой-нибудь архив и т. п.). Читатели же его работы вводят идентификатор ссылки на том же сервере и сразу попадают на ее «живую» версию (если сославшийся не забывает обновлять ее – что при наличии десятков работ и сотен ссылок весьма сомнительно). Впрочем, понятно, что журналисты популярных веб-изданий, блоггеры и прочие "простые смертные писатели" к столь сложным способам "обеспечения доступности" не склонны [Интересно, кстати, как решен этот вопрос в «народной» Википедии. Можно заметить, что актуальные и часто обновляемые статьи в последнее время для указания источников информации переходят с привычных для Веба ссылок из текста к более формальной системе нумерованных сносок, в каждой из которых лежит ссылка и запись вида "доступность проверена тогда-то". Такая система требует дополнительного труда и внимания, зато позволяет обновлять «протухшие» ссылки на источники фактов, не трогая основной текст].