Выбрать главу

Быть аналитиком. Задавать вопросы

Люди учатся на аналитиков данных несколько лет. Все знания, которые они получают, нам не нужны – достаточно основ.

Как в целом устроен процесс изучения ваших данных? Обычно он состоит из двух основных подходов:

• статистического

• визуального

Статистические методы используются для того, чтобы узнавать:

• количество значений в каждой категории

• распределение значений внутри категории: какие значения встречаются чаще, какие – реже

• суммирующие показатели: сумма всех значений, сумма за периоды, суммы по категориям, среднее и медиана

• максимальные и минимальные значения и так далее

Визуальный анализ – это нахождение характера и закономерностей изменения данных в процессе их графического изображения. Мы представляем ряды чисел в форме графиков. Это дает нам возможность буквально увидеть данные.

Существует огромное количество сложных и изощренных статистических методов, позволяющих выявить и проанализировать взаимосвязи между показателями. Но и они в качестве наглядного представления результатов часто используют визуальный метод.

Визуальный анализ позволяет быстро обнаруживать взаимоотношения внутри данных. Именно он помог нам выяснить, что происходило с долями продаж сыров в примере из первой главы.

Визуальный анализ позволяет быстро понять, как распределены значения, даже когда данных очень много. Он дает увидеть динамику и характер изменения показателей во времени. С помощью визуального анализа легко обнаружить отсутствие данных по отдельному срезу.

Общепринятого алгоритма статистического и визуального анализа данных не существует. Если пытаться перебрать все возможные виды переменных, срезов, фильтров и их сочетаний, то число комбинаций будет стремиться к бесконечности. Создание и анализ всех этих визуальных форм будут занимать слишком много времени. Поэтому сначала проверяют важное, а потом ищут интересное. Что есть важное и интересное, может сказать только эксперт, который хорошо разбирается в интересующей вас теме. При этом эксперт должен понимать вашу задачу и контекст, в котором существуют данные.

Поэтому автоматический инструмент анализа данных до сих пор не создан. А вот логику статистического и визуального анализа вполне можно понять. Для этого загрузите свою таблицу в Google Sheets (Гугл Таблицы). Затем нажмите в правом нижнем углу кнопку «Анализ данных». Сначала вы увидите ключевые числа, описывающие датасет. Ниже – сводные таблицы и графики. Давайте загрузим в Гугл Таблицы данные о зарплате тренеров и результатах команд, участвовавших в Чемпионате мира по футболу-2018:

В правом нижнем углу рабочей области есть зеленая кнопка «Анализ данных». Выделим столбец с зарплатами, нажмем на кнопку:

Сверху мы получим результаты статического анализа – ключевые значения, описывающие столбец с числами:

Теперь выделим всю таблицу. Мы получим гораздо больше результатов автоматизированного анализа:

Как видите, весьма неплохо! Мы получили и ключевые значения, описывающие датасет, и сводные таблицы, и поисковые визуализации. Скорее всего, именно такие графики мы бы построили сами, пытаясь понять данные.

Конечно, они далеки от оптимальных и по выбору, и по оформлению. В гистограмме, скажем, хочется поменять диапазоны интервалов на кратные круглым значениям (раньше они были кратны 800000):

Работа функции «Анализ данных» хорошо показывает процесс анализа данных и основные его компоненты. В том числе создание сводных таблиц, необходимых для получения агрегированных, обобщенных данных. Что это такое и зачем нужно, мы обсудим немного позже.

В анализ обычно включаются основные показатели:

• количество значений

• максимальное, минимальное, среднее значение

• топ-5, топ-10

• распределение значений внутри категории

• динамика

• какой процент к целому составляют значения

• разница в абсолютных цифрах и в процентах (например, со средним/прошлым)