Читать «Графики, которые убеждают всех» онлайн - страница 13

Александр Андреевич Богачев

Поэтому автоматический инструмент анализа данных до сих пор не создан. А вот логику статистического и визуального анализа вполне можно понять. Для этого загрузите свою таблицу в Google Sheets (Гугл Таблицы). Затем нажмите в правом нижнем углу кнопку «Анализ данных». Сначала вы увидите ключевые числа, описывающие датасет. Ниже – сводные таблицы и графики. Давайте загрузим в Гугл Таблицы данные о зарплате тренеров и результатах команд, участвовавших в Чемпионате мира по футболу-2018:

В правом нижнем углу рабочей области есть зеленая кнопка «Анализ данных». Выделим столбец с зарплатами, нажмем на кнопку:

Сверху мы получим результаты статического анализа – ключевые значения, описывающие столбец с числами:

Теперь выделим всю таблицу. Мы получим гораздо больше результатов автоматизированного анализа:

Как видите, весьма неплохо! Мы получили и ключевые значения, описывающие датасет, и сводные таблицы, и поисковые визуализации. Скорее всего, именно такие графики мы бы построили сами, пытаясь понять данные.

Конечно, они далеки от оптимальных и по выбору, и по оформлению. В гистограмме, скажем, хочется поменять диапазоны интервалов на кратные круглым значениям (раньше они были кратны 800000):

Работа функции «Анализ данных» хорошо показывает процесс анализа данных и основные его компоненты. В том числе создание сводных таблиц, необходимых для получения агрегированных, обобщенных данных. Что это такое и зачем нужно, мы обсудим немного позже.

В анализ обычно включаются основные показатели:

• количество значений

• максимальное, минимальное, среднее значение

• топ-5, топ-10

• распределение значений внутри категории

• динамика

• какой процент к целому составляют значения

• разница в абсолютных цифрах и в процентах (например, со средним/прошлым)

Итак, как найти важное и интересное в вашем датасете?

Для начала – понять, какие значения в вашем наборе данных встречаются чаще, какие – реже. Выявить тенденции и тренды, понять, что из них выбивается. Затем нужно начать задавать вопросы, проверять гипотезы. Общайтесь со своим набором данных, как вы общались бы с человеком.

Вопросы могут быть такими:

• Кто лидеры рынка? Отстающие?

• В каком регионе максимальные продажи?

• Какой средний чек?

• Кто лидер по KPI?

• Как изменился уровень продаж за последние полгода?

Или гипотезы:

• Действительно ли есть зависимость между рекламной кампанией и ростом конверсии?

• Правда ли, что на конверсию больше всего влияет канал продаж?

Вы можете задавать датасету все вопросы, которые кажутся вам важными. Возможно, в процессе визуального анализа вы зацепитесь за что-то. У вас могут возникнуть новые мысли, которые вы захотите проверить. Продолжайте этот процесс, пока не поймете, что узнали все, что вам было нужно.