Читать «Графики, которые убеждают всех» онлайн - страница 9

Александр Андреевич Богачев

Финальная версия слайда была примерно такой:

Этот пример показывает, как именно относиться к большому массиву данных. Нужно выбирать из него только релевантные, максимально подходящие для ваших целей срезы: по времени, по категориям и так далее.

Однако в другой ситуации вам, наоборот, может понадобиться более широкий контекст, потому что иначе картина сильно искажается.

Если показать только график А, у читателей сложится обманчивое впечатление, что показатель уверенно растет. В то время как на самом деле это был лишь короткий эпизод. Это хорошо видно на графике B.

Продолжим аналогию с врачом. Представьте, что врач назначает всем пациентам одни и те же обследования, даже не взглянув на людей, вне зависимости от ситуации. Звучит абсурдно? Однако такое происходит очень часто. Сотрудника просят сделать отчет или презентацию с графиками «вот по этой табличке».

Зачастую человек не тратит время, чтобы выяснить: зачем нужна презентация, какова ее цель и что все эти цифры обозначают в разрезе цели. Он просто визуализирует все, что можно визуализировать. Графики могут получиться симпатичными, но вряд ли они улучшат понимание происходящего. Потому что, если понимания происходящего нет у автора графика, его не будет и у зрителя.

Качество данных

С данными всегда что-то не так. Они всегда неполные, есть вопросы к методологии, не такие свежие, как хотелось бы, не совсем в том формате, в каком нужно, не совсем с теми переменными, с какими хотелось бы. Это следует принимать как данность и стараться выжимать максимум из того, что есть.

К данным, к тому, как они собраны, организованы и подготовлены, предъявляются определенные требования. Визуализация данных – это следующий этап после их подготовки и анализа. Если на подготовительном этапе возникли ошибки, то представление таких данных, как бы грамотно оно ни было сделано, не будет стоить многого.

Данные должны быть по возможности:

• максимально свежими

• целостными, полными, единообразными

• сравнимыми – собранными по одной методологии на сопоставимых выборках

• из источников, вызывающих доверие

Этот график, построенный на базе данных террористических актов Мэрилендского университета, показывает количество терактов, совершенных в мире с 1969 по 2019 год. Я потратил много времени, выясняя, почему в середине девяностых годов значения на графике полностью отсутствуют. Я подозревал в ошибке какие-то настройки программы, в которой создавался график. В конечном итоге пришлось обратиться к документации, сопровождавшей базу данных. Выяснилось, что данные за 1993 год отсутствуют по техническим причинам.

Очень важно перед началом работы проверить датасет (набор данных) на полноту, целостность и корректность. Если он небольшой, можно просто просмотреть все значения. Если относительно большой – нужно создать оценочные визуализации.

Очень удобно оценивать целостность датасета и распределение значений в столбцах с помощью софта, подобного Trifacta Wrangler (см. скриншот). Над каждым столбцом строится гистограмма, показывающая распределение данных в нем: