Читать «Графики, которые убеждают всех» онлайн - страница 15
Александр Андреевич Богачев
По-хорошему нам надо сделать поправки на то, как долго ролик находится на ютубе и на количество подписчиков в момент выхода программы. Например, видео с Познером добавлено ровно в день составления датасета и наберет еще немало просмотров. Сейчас мы опустим эти моменты для понимания главного.
Что еще может нас заинтересовать? Вот распределение роликов по месяцам и по количеству просмотров:
Мы, разумеется, не охватили и половины того, что могли бы проанализировать. Однако даже в процессе беглого анализа мы уже агрегировали и создавали новые данные в наборе! Мы объединяли данные, когда считали распределение количества роликов по дням недели и месяцам, распределение по просмотрам. Мы создавали новые данные, когда считали процент просмотров, пришедшихся на разные дни недели.
Новые данные в набор (скажем, даты рождения участников) мы можем добавить и из других датасетов или определить самостоятельно. Давайте добавим новый столбец, в котором укажем основную область деятельности участников интервью:
Теперь мы можем не только увидеть, кто из гостей Дудя более популярен, но и узнать, персонажи из каких сфер людям более интересны.
Или объединить их:
Или даже посмотреть, когда именно и как часто гости из разных сфер приходили к Дудю:
А теперь размером кружочка закодируем число просмотров, то есть добавим еще одно измерение:
Эти визуализации дают нам много интересной информации. Например, что в марте-мае Дудь пообщался с тремя видеоблогерами и больше их не звал, что кинодеятели приходят примерно через равные промежутки времени. Чтобы получать детальную информацию, можно использовать интерактивные возможности вашего софта для визуального анализа:
Чтобы находить в датасетах интересное, вам наверняка придется агрегировать данные и создавать новые – качественные и количественные.
Формулируем сообщение
Вспомним, что визуализация данных – инструмент нашей коммуникации. Чтобы она состоялась, нужно сообщение. И чем это сообщение яснее и четче, тем эффективнее коммуникация.
Чтобы сформулировать сообщение, нам и нужен анализ данных. Сообщение стоит формулировать после анализа или в процессе, но никак не до него, пытаясь подогнать данные и графики под заранее готовые мысли или шаблоны.
Автор Хоакин Вийера, графический дизайнер английского издания Гардиан
Сообщение обычно формулируется в терминах трендов, паттернов, изменения динамики, характера распределения, связи одних данных с другими. Например, повышение/снижение, сезонность, характер роста, сравнение относительно других, занимаемое место.
По результатам анализа датасета мы можем сформулировать несколько сообщений – важных и интересных особенностей, которые мы обнаружили. Часть сообщений можно попробовать донести с помощью графиков.
Чтобы окончательно сформулировать сообщение, вам потребуется как-то интерпретировать то, что вы нашли внутри датасета. Для этого нужно найти эксперта, который хорошо понимает, как эти данные связаны с реальностью. Или самому стать таким человеком. Иногда наиболее интересные выводы появляются там, где данные и ваши аналитические находки расходятся с мнением экспертов. За этим может лежать настоящая история и настоящее расследование.