Читать «Графики, которые убеждают всех» онлайн - страница 14
Александр Андреевич Богачев
Именно из ответов на ваши вопросы и результатов проверки гипотез появятся основные мысли – сообщения, которые мы будем представлять в виде графиков.
Создание новых данных внутри датасета
Чаще всего, чтобы найти что-то действительно важное и значимое в датасете, вам придется создавать сводные таблицы или новые данные внутри набора.
Уровень агрегированности (обобщенности, детализации) данных может быть разным. Скажем, в таблице с зарплатами тренеров данные представлены в неагрегированной форме. Для каждого тренера выделена отдельная строка с уровнем годовой зарплаты в абсолютных числах. Как вы помните, инструмент Гугл Таблиц для анализа самостоятельно догадался провести агрегацию по результату команд. Сервис посчитал среднюю зарплату тренеров команд, не вышедших из группы и прошедших дальше.
Иногда же таблицы к вам поступают (например, от аналитиков) уже агрегированными (сводными). Это удобно, так как вам не нужно проводить эту работу. Однако, если данные сильно различаются в широком диапазоне, их усреднение может сильно исказить общую картину.
Вот таблица со статистикой посещаемости первого сезона ютуб-программы «вДудь»:
Сначала проведем статистический анализ, а затем приступим к визуальному, в ходе которого будем создавать поисковые визуализации данных. Оформление не имеет для них существенного значения. Это важно для финальных графиков, которые готовятся к размещению в презентации или для публикации. А для поисковых визуализаций мы просто оставим стандартные настройки программы (в данном случае для визуального анализа мы использовали Tableau).
Прежде всего получим ключевые числа, описывающие датасет. Общее количество просмотров всех роликов – чуть более 124 млн, всего роликов за период – 34, среднее количество просмотров каждого ролика – 3,64 млн, минимальное (режиссер Хлебников) – 1,6 млн, максимальное (Слава КПСС) – 6,6 млн.
Первый ролик вышел 7 февраля, последний – 18 октября 2017 года.
Посмотрим динамику просмотров по датам:
Очень удачная визуализация, которая дает представление о взлетах и падениях популярности выпусков, позволяет увидеть наиболее и наименее популярные ролики.
Чтобы нагляднее увидеть распределение выпусков по датам и обнаружить значительный по времени перерыв, заменим линейный график на столбиковую диаграмму:
Становится интересно, в какие дни чаще всего выходили интервью, смотрим:
Выпусков в среду было меньше, чем во вторник, но медиана просмотров у них больше. Медиана – это число в середине набора чисел. Половина чисел расположена ниже этого значения, половина – выше.
Чтобы понять почему так вышло, посмотрим, какие именно интервью пришлись на среду. Это БэдКомедиан, Гнойный, Фейс и Познер.
Однако, разумеется, вторничные просмотры принесли гораздо больше трафика, чем какие-либо другие:
Самое время более наглядно изучить, какие ролики самые популярные, а какие – наоборот: