Читать «Графики, которые убеждают всех» онлайн - страница 29

Александр Андреевич Богачев

И в таком случае обрезать шкалу и удалять часть площади – значит просто удалять часть значений. Некоторые авторы категорически не рекомендуют этого делать.

Я тоже не одобряю использование этого приема. Если вы все же решили к нему прибегнуть, лучше делать это максимально деликатно: сделать заливку полупрозрачной, использовать градиент, уходящий темной частью вниз. Это даст понять, что визуализация построена не от нуля и не отражает общее количество.

Распределение

Графики, показывающие распределение, используют реже, чем стоило бы.

Гистограмма – классический способ показать распределение данных внутри одного ряда. Она демонстрирует, сколько значений переменной попадает в последовательные интервалы. Есть несколько основных правил использования гистограммы.

1) В большинстве ситуаций интервалы на порядковой шкале должны быть равными. Так распределение считывается наиболее наглядно:

Казалось бы, первый вариант показывает нормальное распределение. Однако это впечатление обманчиво: на самом деле гистограмма здесь смещена вправо.

2) Интервалы нельзя пропускать! Так теряется возможность наглядно увидеть выбросы значений:

Разница со столбиковой диаграммой

Гистограмма и столбиковая диаграмма – это ведь одно и то же? Нет, они принципиально отличаются, хотя и выглядят похоже.

Между столбиками в гистограмме обычно не оставляют пустого пространства, подчеркивая непрерывность интервалов. По оси X в гистограмме расположена количественная шкала (в виде последовательных интервалов), а в столбиковой диаграмме – категориальная. Причем этих интервалов обычно нет в изначальном датасете, они выбираются произвольно. Столбики в столбиковой диаграмме можно сортировать, например, от большего к меньшему, или по алфавиту. В гистограмме сортировать данные не получится, так как интервалы идут по порядку, от меньших значений к большим.

Кстати, гистограммы появились в стандартных диаграммах Excel в 2016 году.

Как выбирать интервалы?

Слишком маленькие интервалы показывают данные чрезмерно детализированно, затрудняя восприятие паттерна. Слишком большие интервалы чересчур обобщают, из-за чего теряются важные особенности характера распределения. Нет единого рецепта, нужно найти здоровый баланс между двумя крайностями.

В приведенном примере интервал 0,5 кажется наиболее сбалансированным.

Альтернативы гистограммам

Гистограммы особенно уместны в презентациях в силу своей исключительной понятности и наглядности. Но если вам нужно показать распределение по нескольким рядам данных, для достижения компактности можно использовать и другие графики.

Высокой плотностью данных отличаются баркод-плот и стрип-плот:

Работа автора

Если вы хотите использовать эти графики в презентациях, лучше применять акцентное выделение. Мы обсудим это в седьмой главе.

В научных работах широко используют график «ящик с усами», который является «сплющенной» гистограммой. Дополнительно он указывает на медиану, а также более компактно показывает характер распределения: