Выбрать главу

Что реально, а что нет? Уж слишком много внимания к этой теме! Может быть, анализ больших данных – не более чем шумиха? Разговоров на эту тему и правда много, однако эпоха преобразований в сфере аналитических возможностей и эффективного использования больших объемов данных действительно наступила. За ажиотажем, поднятым в средствах массовой информации, стоит нечто очень реальное и мощное. Шумиха вокруг больших данных объясняется тем, что и предприятия, и потребители взволнованы ожиданием тех преимуществ, которые со временем предоставит анализ больших данных.

Большие данные, в свою очередь, становятся источником новых данных, которые стимулируют аналитические инновации в бизнесе, правительстве и академических кругах. Эти нововведения в состоянии радикально изменить взгляд организаций на свой бизнес. Большие данные обеспечат информацию, которая поможет принимать более взвешенные решения, и в некоторых случаях они будут разительно отличаться от тех, что принимаются сегодня. Анализ больших данных даст такое понимание, о котором сегодня можно только мечтать. Вы увидите, что укрощение волны больших данных и укрощение новых источников данных осуществляется аналогичными способами. Тем не менее дополнительные возможности, которые предоставляют большие данные, требуют использования новейших инструментов, технологий, методов и процессов. Старые способы анализа просто не сработают. Пришло время, когда передовые аналитические методы должны перейти на следующий уровень. Именно этому посвящена книга.

«Укрощение больших данных» не просто название книги. Скорее, это попытка определить, какие предприятия выиграют, а какие проиграют в следующем десятилетии. Подготовившись и взяв на себя инициативу, организации сумеют оседлать волну больших данных, чтобы достичь успеха, вместо того чтобы быть ею раздавленными. Что нужно знать и как подготовиться, чтобы подчинить себе большие данные и извлечь из них ценные новые сведения? Сядьте поудобнее и приготовьтесь это выяснить!

Целевая аудитория

В последние годы появилось бесчисленное количество книг, посвященных передовым методам анализа, а также ряд книг о больших данных. Эта книга подходит к вопросу с иной точки зрения. Основное внимание уделено объяснению, что такое большие данные и как с помощью аналитики их можно использовать, а также рассказать о подходах к созданию и развитию передовой аналитической экосистемы мирового класса в современной среде больших данных. Эта книга адресована широкому кругу читателей. Профессиональный ли вы аналитик, предприниматель, использующий результаты работы аналитиков, или вам просто интересна тема больших данных – в этой книге вы найдете для себя что-нибудь полезное.

В книге нет подробных технических описаний; технические детали используются лишь в той мере, в какой необходимо обеспечить высокий уровень понимания обсуждаемой темы. Цель – помочь читателям понять и начать применять эти концепции, а также определить области для дальнейшего исследования. Эта книга скорее руководство, чем учебник, и она доступна для читателей, далеких от технических вопросов. В то же время те, кто уже глубоко понимает тему, между строк смогут увидеть технический подтекст.

Обзор содержания

Книга состоит из четырех частей, каждая из которых охватывает один аспект укрощения больших данных. В первой части объясняется, что такое большие данные, каково их значение и способы применения. Вторая часть касается инструментов, технологий и методов, необходимых для анализа и успешного использования больших данных. Третья часть посвящена людям, командам и принципам анализа, которые позволяют обеспечить эффективность. Четвертая часть подводит итог и фокусируется на том, как внедрить передовые методы анализа с помощью центра аналитических инноваций и изменения культуры. Приведем более подробное описание тем каждой части и главы.

Часть I. Появление больших данных

В первой части идет речь о том, что такое большие данные, почему они важны, в чем состоят преимущества их анализа. Описаны десять источников больших данных и то, как эти источники могут быть использованы организациями для улучшения своего бизнеса. Если читатели не знают, что такое большие данные или насколько широко их применение, первая часть даст ответы на эти вопросы.

Глава 1. Что такое «большие данные» и каково их значение? Эта глава начинается с обзора темы больших данных. Затем приводится ряд соображений о том, как организации могут их использовать. Для того чтобы помочь своим организациям справиться с волной больших данных, читателям следует разобраться в содержимом данной главы так же хорошо, как в остальных главах.

Глава 2. Веб-данные: первые большие данные. Вероятно, наиболее широко используемый и самый известный источник больших данных на сегодняшний день – это данные, собранные с помощью сайтов. Журналы, которые содержат историю посещения пользователями веб-страниц, – настоящая сокровищница информации, которая только и ждет, чтобы ее проанализировали. Организации в целом ряде отраслей уже интегрировали подробные данные о клиентах, полученные с помощью сайтов, в собственную аналитическую среду. В этой главе показано, как эти данные расширяют возможности и изменяют процесс принятия различных бизнес-решений.

Глава 3. Источники больших данных и их ценность. Здесь мы подробно рассмотрим еще девять источников больших данных, чтобы объяснить, что представляет собой каждый источник данных, а также перечислим некоторые способы их применения в бизнесе. Одни и те же базовые технологии могут привести к возникновению нескольких источников больших данных в различных отраслях, а различные отрасли могут воспользоваться преимуществами одних и тех же источников данных. Большие данные имеют очень широкую сферу применения.

Часть II. Укрощение больших данных: технологии, процессы и методы

Часть II посвящена технологиям, процессам и методам, необходимым для укрощения больших данных. За последние годы увеличились возможности масштабируемости этих трех факторов. Организации не могут далее полагаться на устаревшие подходы и желают оставаться конкурентоспособными в мире больших данных. Эта часть книги наиболее «техническая», но все же она доступна для понимания. Читатели познакомятся с рядом концепций, с которыми им предстоит столкнуться в мире анализа больших данных.

Глава 4. Эволюция масштабируемости аналитических систем. Темп роста объема данных всегда предъявлял высокие требования к наиболее масштабируемым из доступных методов анализа. Перед появлением больших данных они уже были близки к своим пределам. Теперь традиционные подходы просто не работают. В этой главе рассматриваются слияние аналитической среды со средой данных, массивно-параллельные архитектуры, облачные и грид-вычисления, а также модель MapReduce. Каждая из этих парадигм обеспечивает большую масштабируемость и будет играть важную роль в процессе анализа больших объемов данных.

Глава 5. Эволюция аналитических процессов. Значительное увеличение уровня масштабируемости требует обновления аналитических процессов. Глава начинается с описания использования так называемых аналитических песочниц для обеспечения профессиональных аналитиков масштабируемой средой в целях создания передовых аналитических процессов. Далее объясняется, как наборы данных предприятия могут обеспечить большую последовательность и уменьшить риск при создании аналитических данных и одновременном увеличении производительности труда аналитика. В конце главы описывается, как встроенные процессы скоринга позволяют пользователям и приложениям использовать результаты применения передовых аналитических процессов.

Глава 6. Эволюция аналитических инструментов и методов. В этой главе рассматриваются пути развития передовых аналитических инструментов, а также объясняется, как подобные прорывы повлияют на работу профессиональных аналитиков с большими объемами данных. Затрагиваются такие темы, как эволюция визуальных интерфейсов, аналитические точечные решения, инструменты с открытым исходным кодом и инструменты визуализации данных. Рассказывается, как профессиональные аналитики изменили свои подходы к построению моделей для более эффективного использования имеющихся возможностей. Среди описываемых тем: групповое моделирование, экспресс-моделирование и анализ текста.