Мы, разумеется, не охватили и половины того, что могли бы проанализировать. Однако даже в процессе беглого анализа мы уже агрегировали и создавали новые данные в наборе! Мы объединяли данные, когда считали распределение количества роликов по дням недели и месяцам, распределение по просмотрам. Мы создавали новые данные, когда считали процент просмотров, пришедшихся на разные дни недели.
Новые данные в набор (скажем, даты рождения участников) мы можем добавить и из других датасетов или определить самостоятельно. Давайте добавим новый столбец, в котором укажем основную область деятельности участников интервью:
Теперь мы можем не только увидеть, кто из гостей Дудя более популярен, но и узнать, персонажи из каких сфер людям более интересны.
Или объединить их:
Или даже посмотреть, когда именно и как часто гости из разных сфер приходили к Дудю:
А теперь размером кружочка закодируем число просмотров, то есть добавим еще одно измерение:
Эти визуализации дают нам много интересной информации. Например, что в марте-мае Дудь пообщался с тремя видеоблогерами и больше их не звал, что кинодеятели приходят примерно через равные промежутки времени. Чтобы получать детальную информацию, можно использовать интерактивные возможности вашего софта для визуального анализа:
Чтобы находить в датасетах интересное, вам наверняка придется агрегировать данные и создавать новые – качественные и количественные.
Формулируем сообщение
Вспомним, что визуализация данных – инструмент нашей коммуникации. Чтобы она состоялась, нужно сообщение. И чем это сообщение яснее и четче, тем эффективнее коммуникация.
Чтобы сформулировать сообщение, нам и нужен анализ данных. Сообщение стоит формулировать после анализа или в процессе, но никак не до него, пытаясь подогнать данные и графики под заранее готовые мысли или шаблоны.
Автор Хоакин Вийера, графический дизайнер английского издания Гардиан
Сообщение обычно формулируется в терминах трендов, паттернов, изменения динамики, характера распределения, связи одних данных с другими. Например, повышение/снижение, сезонность, характер роста, сравнение относительно других, занимаемое место.
По результатам анализа датасета мы можем сформулировать несколько сообщений – важных и интересных особенностей, которые мы обнаружили. Часть сообщений можно попробовать донести с помощью графиков.
Чтобы окончательно сформулировать сообщение, вам потребуется как-то интерпретировать то, что вы нашли внутри датасета. Для этого нужно найти эксперта, который хорошо понимает, как эти данные связаны с реальностью. Или самому стать таким человеком. Иногда наиболее интересные выводы появляются там, где данные и ваши аналитические находки расходятся с мнением экспертов. За этим может лежать настоящая история и настоящее расследование.
Иногда информация в реальном мире может стать отправной точкой для ваших вопросов к данным и их анализу. Допустим, руководитель отдела кадров говорит вам, что по его ощущениям многие сотрудники со стажем работы 1–2 года покидают компанию. Вы можете запросить и подготовить данные, которые это подтверждают или опровергают.
При общении с экспертом будьте осторожны, не совершите другой ошибки: когда еще до начала анализа вы уже имеете представление о том, что должно быть в данных. Тогда анализа данных не произойдет вовсе или находки будут игнорироваться.
Еще хуже – когда у вас уже заготовлены слайды с определенным посылом. И вы просто хотите вставить в работу графики, подтверждающие ваши заготовки. В реальности может оказаться, что данные, а за ними и графики, вовсе не подтверждают ваши мысли. Это одна из причин, по которой мы часто видим слайды, графики на которых противоречат заголовкам.
Про объективность, честность, непредвзятость
Вы можете очень хотеть убедить кого-то в чем-то. Однако, если данные не подтверждают вашу правоту, не стоит пытаться произвести нужное вам впечатление с помощью различных ухищрений. Возможно, в краткосрочной перспективе вы будете убедительны, но рано или поздно правда раскроется.
Не секрет, что статистика и визуализация данных могут лгать. На самом деле они вообще никогда не говорят правду – это всегда взгляд с той или иной степенью точности по отношению к реальности. Но вы можете стремиться к объективности, насколько это возможно.