Читать «Графики, которые убеждают всех» онлайн - страница 12

Александр Андреевич Богачев

Это население субъектов РФ. Естественно, темнее всего Москва, Московская область, Санкт-Петербург, Краснодарский край. Если любые статистические данные по регионам России не пересчитывать на количество населения, вы всегда будете получать подобную карту.

Например, мы изучаем смертность в ДТП. Здесь важно понять не сколько всего было жертв ДТП в каждом регионе, а сколько их было на каждую тысячу проживающих.

Вот карта общего числа преступлений по регионам за 2018 год в абсолютных числах. Она почти идентична карте, показывающей население:

А вот количество преступлений на 10 000 человек:

Картина меняется радикально. Данные по регионам почти всегда нужно нормировать, то есть приводить к количеству населения или к площади.

Нельзя вольно обращаться и с процентными значениями. Обычно их нельзя просто так складывать или высчитывать из них среднее.

Допустим, нам известно, что 18 % взрослых и 21 % детей в России страдает аллергией. Из этого совершенно не следует, что аллергией страдает 39 % населения, как это показывает картинка выше. Также из этого не следует, что процент аллергиков среди населения всех возрастов равен 19,5 ((18+21)/2). Чтобы узнать процент аллергиков всего среди населения, нам нужны дополнительные данные. Необходимо знать процент взрослых и детей в России. Допустим, детей 10 %, а взрослых – 90 %. Теперь проводим следующие вычисления: (90 × 0,18 + 10 × 0,21)/100 = (16,2 + 2,1)/100 = 18,3 %.

Быть аналитиком. Задавать вопросы

Люди учатся на аналитиков данных несколько лет. Все знания, которые они получают, нам не нужны – достаточно основ.

Как в целом устроен процесс изучения ваших данных? Обычно он состоит из двух основных подходов:

• статистического

• визуального

Статистические методы используются для того, чтобы узнавать:

• количество значений в каждой категории

• распределение значений внутри категории: какие значения встречаются чаще, какие – реже

• суммирующие показатели: сумма всех значений, сумма за периоды, суммы по категориям, среднее и медиана

• максимальные и минимальные значения и так далее

Визуальный анализ – это нахождение характера и закономерностей изменения данных в процессе их графического изображения. Мы представляем ряды чисел в форме графиков. Это дает нам возможность буквально увидеть данные.

Существует огромное количество сложных и изощренных статистических методов, позволяющих выявить и проанализировать взаимосвязи между показателями. Но и они в качестве наглядного представления результатов часто используют визуальный метод.

Визуальный анализ позволяет быстро обнаруживать взаимоотношения внутри данных. Именно он помог нам выяснить, что происходило с долями продаж сыров в примере из первой главы.

Визуальный анализ позволяет быстро понять, как распределены значения, даже когда данных очень много. Он дает увидеть динамику и характер изменения показателей во времени. С помощью визуального анализа легко обнаружить отсутствие данных по отдельному срезу.

Общепринятого алгоритма статистического и визуального анализа данных не существует. Если пытаться перебрать все возможные виды переменных, срезов, фильтров и их сочетаний, то число комбинаций будет стремиться к бесконечности. Создание и анализ всех этих визуальных форм будут занимать слишком много времени. Поэтому сначала проверяют важное, а потом ищут интересное. Что есть важное и интересное, может сказать только эксперт, который хорошо разбирается в интересующей вас теме. При этом эксперт должен понимать вашу задачу и контекст, в котором существуют данные.