Выбрать главу

Итак, как найти важное и интересное в вашем датасете?

Для начала – понять, какие значения в вашем наборе данных встречаются чаще, какие – реже. Выявить тенденции и тренды, понять, что из них выбивается. Затем нужно начать задавать вопросы, проверять гипотезы. Общайтесь со своим набором данных, как вы общались бы с человеком.

Вопросы могут быть такими:

• Кто лидеры рынка? Отстающие?

• В каком регионе максимальные продажи?

• Какой средний чек?

• Кто лидер по KPI?

• Как изменился уровень продаж за последние полгода?

Или гипотезы:

• Действительно ли есть зависимость между рекламной кампанией и ростом конверсии?

• Правда ли, что на конверсию больше всего влияет канал продаж?

Вы можете задавать датасету все вопросы, которые кажутся вам важными. Возможно, в процессе визуального анализа вы зацепитесь за что-то. У вас могут возникнуть новые мысли, которые вы захотите проверить. Продолжайте этот процесс, пока не поймете, что узнали все, что вам было нужно.

Именно из ответов на ваши вопросы и результатов проверки гипотез появятся основные мысли – сообщения, которые мы будем представлять в виде графиков.

Создание новых данных внутри датасета

Чаще всего, чтобы найти что-то действительно важное и значимое в датасете, вам придется создавать сводные таблицы или новые данные внутри набора.

Уровень агрегированности (обобщенности, детализации) данных может быть разным. Скажем, в таблице с зарплатами тренеров данные представлены в неагрегированной форме. Для каждого тренера выделена отдельная строка с уровнем годовой зарплаты в абсолютных числах. Как вы помните, инструмент Гугл Таблиц для анализа самостоятельно догадался провести агрегацию по результату команд. Сервис посчитал среднюю зарплату тренеров команд, не вышедших из группы и прошедших дальше.

Иногда же таблицы к вам поступают (например, от аналитиков) уже агрегированными (сводными). Это удобно, так как вам не нужно проводить эту работу. Однако, если данные сильно различаются в широком диапазоне, их усреднение может сильно исказить общую картину.

Вот таблица со статистикой посещаемости первого сезона ютуб-программы «вДудь»:

Сначала проведем статистический анализ, а затем приступим к визуальному, в ходе которого будем создавать поисковые визуализации данных. Оформление не имеет для них существенного значения. Это важно для финальных графиков, которые готовятся к размещению в презентации или для публикации. А для поисковых визуализаций мы просто оставим стандартные настройки программы (в данном случае для визуального анализа мы использовали Tableau).

Прежде всего получим ключевые числа, описывающие датасет. Общее количество просмотров всех роликов – чуть более 124 млн, всего роликов за период – 34, среднее количество просмотров каждого ролика – 3,64 млн, минимальное (режиссер Хлебников) – 1,6 млн, максимальное (Слава КПСС) – 6,6 млн.

Первый ролик вышел 7 февраля, последний – 18 октября 2017 года.

Посмотрим динамику просмотров по датам:

Очень удачная визуализация, которая дает представление о взлетах и падениях популярности выпусков, позволяет увидеть наиболее и наименее популярные ролики.

Чтобы нагляднее увидеть распределение выпусков по датам и обнаружить значительный по времени перерыв, заменим линейный график на столбиковую диаграмму:

Становится интересно, в какие дни чаще всего выходили интервью, смотрим:

Выпусков в среду было меньше, чем во вторник, но медиана просмотров у них больше. Медиана – это число в середине набора чисел. Половина чисел расположена ниже этого значения, половина – выше.

Чтобы понять почему так вышло, посмотрим, какие именно интервью пришлись на среду. Это БэдКомедиан, Гнойный, Фейс и Познер.

Однако, разумеется, вторничные просмотры принесли гораздо больше трафика, чем какие-либо другие:

Самое время более наглядно изучить, какие ролики самые популярные, а какие – наоборот:

По-хорошему нам надо сделать поправки на то, как долго ролик находится на ютубе и на количество подписчиков в момент выхода программы. Например, видео с Познером добавлено ровно в день составления датасета и наберет еще немало просмотров. Сейчас мы опустим эти моменты для понимания главного.

Что еще может нас заинтересовать? Вот распределение роликов по месяцам и по количеству просмотров: