Читать «Графики, которые убеждают всех» онлайн - страница 14

Александр Андреевич Богачев

Именно из ответов на ваши вопросы и результатов проверки гипотез появятся основные мысли – сообщения, которые мы будем представлять в виде графиков.

Создание новых данных внутри датасета

Чаще всего, чтобы найти что-то действительно важное и значимое в датасете, вам придется создавать сводные таблицы или новые данные внутри набора.

Уровень агрегированности (обобщенности, детализации) данных может быть разным. Скажем, в таблице с зарплатами тренеров данные представлены в неагрегированной форме. Для каждого тренера выделена отдельная строка с уровнем годовой зарплаты в абсолютных числах. Как вы помните, инструмент Гугл Таблиц для анализа самостоятельно догадался провести агрегацию по результату команд. Сервис посчитал среднюю зарплату тренеров команд, не вышедших из группы и прошедших дальше.

Иногда же таблицы к вам поступают (например, от аналитиков) уже агрегированными (сводными). Это удобно, так как вам не нужно проводить эту работу. Однако, если данные сильно различаются в широком диапазоне, их усреднение может сильно исказить общую картину.

Вот таблица со статистикой посещаемости первого сезона ютуб-программы «вДудь»:

Сначала проведем статистический анализ, а затем приступим к визуальному, в ходе которого будем создавать поисковые визуализации данных. Оформление не имеет для них существенного значения. Это важно для финальных графиков, которые готовятся к размещению в презентации или для публикации. А для поисковых визуализаций мы просто оставим стандартные настройки программы (в данном случае для визуального анализа мы использовали Tableau).

Прежде всего получим ключевые числа, описывающие датасет. Общее количество просмотров всех роликов – чуть более 124 млн, всего роликов за период – 34, среднее количество просмотров каждого ролика – 3,64 млн, минимальное (режиссер Хлебников) – 1,6 млн, максимальное (Слава КПСС) – 6,6 млн.

Первый ролик вышел 7 февраля, последний – 18 октября 2017 года.

Посмотрим динамику просмотров по датам:

Очень удачная визуализация, которая дает представление о взлетах и падениях популярности выпусков, позволяет увидеть наиболее и наименее популярные ролики.

Чтобы нагляднее увидеть распределение выпусков по датам и обнаружить значительный по времени перерыв, заменим линейный график на столбиковую диаграмму:

Становится интересно, в какие дни чаще всего выходили интервью, смотрим:

Выпусков в среду было меньше, чем во вторник, но медиана просмотров у них больше. Медиана – это число в середине набора чисел. Половина чисел расположена ниже этого значения, половина – выше.

Чтобы понять почему так вышло, посмотрим, какие именно интервью пришлись на среду. Это БэдКомедиан, Гнойный, Фейс и Познер.

Однако, разумеется, вторничные просмотры принесли гораздо больше трафика, чем какие-либо другие:

Самое время более наглядно изучить, какие ролики самые популярные, а какие – наоборот: