Читать «Графики, которые убеждают всех» онлайн - страница 10

Александр Андреевич Богачев

Датасет нужно готовить так, чтобы в каждом столбце находились данные в одном формате и одного типа. Значения должны быть написаны одинаково, с точностью до знака. Если в столбце встречается различное написание или ошибки (например, Массква, Москва, г. Москва) – все должно быть приведено к единообразию. Какие-то столбцы при необходимости нужно разбить, какие-то, напротив, свести в один.

Подготовительная работа крайне важна. От нее зависит не только то, насколько удобно вам будет работать в аналитической программе или программе для визуализации данных. Подготовка решает, насколько корректными будут ваши выводы и графики в итоге.

Правила оформления датасета

• Первая строка – заголовки столбцов

• Каждый столбец – отдельная категория

• Данные в столбцах однотипны

• Одно событие или объект – одна строка

• Отсутствие пустых строк и столбцов

Иногда предварительная работа (поиск, сбор, подготовка, очистка данных) занимает 80–90 % времени работы над проектом. И это нормально.

Погружение в тему и контекст

Любые количественные значения, которыми наполнены ваши таблицы, – это не просто циферки. Они возникают не из воздуха. За каждым значением стоит процесс или явление в реальном мире. И эти цифры что-то означают. Они собираются по какому-то принципу, следуя какой-то методологии, с какими-то интервалами, с какой-то погрешностью. И каждая из цифр оценивает какой-то маленький аспект огромной многообразной реальности. Важно понимать, насколько достоверно и в каком качестве данные соотносятся с реальностью, какой контекст за ними стоит.

Одно из российских СМИ однажды опубликовало график, посвященный числу эмигрантов из России по годам. И сделало вывод, что в нашей стране все настолько плохо, что с 2012-го года, с третьего срока Путина, народ массово покидает страну. Шутка ли – 300 тысяч эмигрантов в год! Это население крупного областного центра.

Однако же данные эти на самом деле совсем не однозначны. Природа показателей, стоящих за этими цифрами в разные периоды, различна.

Первое, о чем следует сказать: по тем же данным, за тот же период в Россию въехало в два раза больше людей:

И, что более важно, этот график о совершенно разных группах людей. По-хорошему, их вообще нельзя ставить на общую ось. Оказывается, за последние 15 лет Росстат дважды менял методику подсчета мигрантов. С 1997 по 2006 год учитывались только те, кто получил вид на жительство в России или снялся с учета при переезде за границу. С 2007 по 2011 год – получившие разрешение на временное проживание. А с 2012 года (как раз!) стали считать всех, кто въехал в Россию или выехал из нее на срок от девяти месяцев по любой причине.

Согласитесь, между получением вида на жительство и въездом на срок от девяти месяцев есть существенная разница. Куда же все уезжают? В основном в страны Средней Азии и Украину. То есть на самом деле график показывает возросший объем трудовой миграции между странами бывшего СССР. Какова же доля уезжающих в страны дальнего зарубежья по сравнению с концом 1990-х годов?