Читать «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» онлайн - страница 147

Жан-Батист Мишель

196

Самая свежая версия базы для создания n-грамов черпает информацию из 8 миллионов книг и позволяет создавать тэги для частей речи. См. Lin Yuri et al. Syntactic Annotations for the Google Books Ngram Corpus // Proceedings of the ACL 2012 System Demonstrations (2012). P. 169–174; Lin Yuri. Syntactically Annotated Ngrams for Google Books. Massachusetts Institute of Technology, 2012 (магистерская диссертация).

197

См. Darnton Robert. The National Digital Public Library Is Launched! // New York Review of Books (25 апреля 2013 г.), доступно в сети Интернет: http://goo.gl/OI5n2J.

198

The HathiTrust (http://www.hathitrust.org), Internet Archives (http://archive.org/index.php), проект «Гутенберг» (http://www.gutenberg.org) и Digital Public Library of America (http://dp.la) – это лишь несколько примеров заметных проектов по выкладыванию цифровых книг в широкий доступ. При наличии полных текстов человек может создать значительно более мощные инструменты для анализа культурных трендов. Пример такого инструмента находится на сайте: http://bookworm.culturomics.org. Произведенная компанией Google адаптация первоначального Bookworm с закрытым кодом использует название Ngram Viewer. Bookworm представляет собой проект Cultural Observatory с открытым кодом. Программный код Bookworm был разработан при участии Бенджамина Шмидта, Невы Чернявски-Дюран, Мартина Камачо, Мэттью Никлей и Линфэн Ян. Основным разработчиком был Шмидт.

199

К 2009 году Amazon уже продавал больше электронных книг, чем книг в твердой обложке. См.: Sorrel Charlie. Amazon: Kindle Books Outsold Real Books This Christmas // Wired (28 декабря 2009 г.), доступно в сети Интернет: http://goo.gl/ZsB7it. В 2012 году электронные книги составляли 23% книжного рынка в Соединенных Штатах. См.: Greenfield Jeremy. Ebooks Account for 23% of Publisher Revenue in 2012, Even as Growth Levels // Digital Book World (11 апреля 2013 г.), доступно в сети Интернет: http://goo.gl/u0d1GJ.

200

См.: Davis S. Peter. 6 Reasons We’re in Another «Book-Burning» Period in History // Cracked (11 октября 2011 г.), доступно в сети Интернет: http://goo.gl/FBZoD; Shaer Matthew. Dead Books Club // New York (12 августа 2012 г.), доступно в сети Интернет: http://goo.gl/UAIDN; Jones Mari. David Lloyd George’s Books Pulped by Conwy Libraries Services // Daily Post (24 марта 2011 г.), доступно в сети Интернет: http://goo.gl/b1pK0; Carter Helen. Authors and Poets Call Halt to Book Pulping at Manchester Central Library // Guardian (22 июня 2012 г.), доступно в сети Интернет: http://goo.gl/lEas1P.

201

См.: Chronicling America // National Endowment for the Humanities, URL: http://chroniclingamerica.loc.gov; Trove // National Library of Australia, URL: http://trove.nla.gov.au; приостановленный проект Google News Archive // Google News, URL: http://news.google.com/newspapers.

202

См., к примеру, Digitized Dead Sea Scrolls // Israel Museum, Jerusalem, URL: http://dss.collections.imj.org.il; Perseus Digital Library, Tufts University, URL: http://www.perseus.tufts.edu. Подробнее о проекте по оцифровке документов, связанных с По, можно узнать в The Edgar Allan Poe Digital Collection // Harry Ransom Center, University of Texas Austin, доступно в сети Интернет: http://goo.gl/XvcqO.