Выбрать главу

Билл Фрэнкс

Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики

Bill Franks

Taming the Big Data Tidal Wave

Finding Opportunities in Huge Data Streams with Advanced Analytics

© 2012 Bill Franks

© Перевод на русский язык, издание на русском языке, оформление. ООО «Манн, Иванов и Фербер», 2014

Все права защищены. Никакая часть электронной версии этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами, включая размещение в сети Интернет и в корпоративных сетях, для частного и публичного использования без письменного разрешения владельца авторских прав.

Правовую поддержку издательства обеспечивает юридическая фирма «Вегас-Лекс»

© Электронная версия книги подготовлена компанией ЛитРес (www.litres.ru)

* * *

Эту книгу хорошо дополняют:

Большие данные

Виктор Майер-Шенбергер

Великий переход

Николас Карр

Новый цифровой мир

Эрик Шмидт

От партнера издания

Сегодня понятие «большие данные», бесспорно, очень популярно. Вокруг них создался огромный ажиотаж, многие действительно связывают с ними будущее. Но есть и те, кто настроен скептически или с осторожностью к большим данным.

Дело в том, что под этим модным выражением сегодня продают самое разное содержание. Одни считают это абсолютно новым революционным технологическим прорывом, подразумевающим полную замену существующих технологий и методологий. Другие – лишь логичным дополнением и развитием старого устойчивого тренда бизнес-аналитики, связанного с появлением новых источников огромного объема информации – как правило, неструктурированной.

Несмотря на популярность этой темы, по моим наблюдениям, существует недостаток качественной информации о ней. Если вы уже изучали ее, то наверняка сталкивались со множеством буклетов и статей, описывающих всю значимость больших данных, но не дающих никаких полезных деталей. Подозреваю, что они не показались вам убедительными и несущими практическую пользу. Возможно, вы находили статьи с подробным описанием различных технических терминов типа Hadoop, MapReduce и т. п. Но если вы не ИТ-специалист, то далеко не все из этого вам было интересно и понятно.

Книга, которую вы держите в руках, уникальна. На мой взгляд, это первая книга про большие данные, которая написана именно для бизнес-пользователей: руководителей разного уровня, аналитиков, маркетологов, экономистов. В ней прекрасно раскрыта тема больших данных с самых разных сторон: экономической, технологической и организационной. Вы найдете много полезной информации о необходимости изменений в вашей организации. Помимо новых технологий вам потребуются правильные сотрудники с нужными компетенциями как для разработки аналитических идей по использованию больших данных, так и для реализации этих инициатив в жизни. Ведь важно, чтобы созданная в вашей компании аналитическая экосистема и культура аналитических инноваций способствовала не только накоплению больших объемов сырой информации, но и была нацелена прежде всего на извлечение из нее реальной пользы.

Я очень рад, что эту книгу написал сотрудник Teradata – компании, которая уже более тридцати лет занимается задачами хранения, обработки и анализа данных. У нас собрана уникальная команда, которая сфокусирована именно на этих задачах, и мы готовы делиться с вами своими знаниями и опытом. Используя передовые технологии, мы позволяем своим клиентам извлекать из данных нужные знания, встраивать их в операционные процессы и в конечном итоге конвертировать все это в прибыль. За кейсами, описанными в этой книге, стоят идеи и опыт применения наших решений крупнейшими передовыми мировыми компаниями. Они используют большие данные, бизнес-аналитику и инновации как свое конкурентное преимущество, поэтому остаются лидерами в своих индустриях.

Уверен, после прочтения этой книги у вас не только сложится правильное понимание, что такое большие данные, но и появится ряд практических идей по улучшению вашего бизнеса или компании, в которой вы работаете. Во-первых, вы поймете, что вы уже имеете в готовом виде, а именно какими данными, компетенциями сотрудников и технологиями вы располагаете. Во-вторых, сможете оценить, чего вам не хватает и что потребует изменений. Возможно, стоит подумать про реорганизацию существующих подразделений, оптимизацию некоторых бизнес-процессов и внедрение новых решений для определенных задач.

С большими данными ваш бизнес действительно может стать более конкурентоспособным, инновационным и потому экономически более эффективным! Но откладывать нельзя, нужно действовать уже сейчас. Большие данные никуда не исчезнут, они неизбежны, и игнорировать их нельзя. Ведь те, кто первым укротит большие данные и начнет правильно их использовать в своем бизнесе, будут иметь большое преимущество и серьезный лидерский отрыв в гонке с конкурентами. Удачи вам на этом пути!

Андрей Алексеенко,
глава Teradata в России

Эта книга посвящается Стейси, Джесси и Даниэль.

Они мирились с тем, что многие ночи и выходные я посвящал этой книге

Предисловие

Хотите вы этого или нет, но в ближайшее время на вас обрушится огромное количество данных. Возможно, уже обрушилось. Возможно, вы уже на протяжении некоторого времени пытаетесь справиться с этим, понять, как хранить данные для последующего доступа, как исправлять ошибки и недостатки или классифицировать их. Теперь вы готовы извлечь смысл из этого огромного набора данных путем их анализа, чтобы узнать что-то о своих клиентах, своем бизнесе или о некоторых аспектах своей организационной среды. А возможно, вы пока далеки от этого, но уже видите свет в конце туннеля управления данными.

В любом случае вы пришли по адресу. Билл Фрэнкс предполагает, что вскоре мир наводнят не только большие данные, но и книги о больших данных. Я предсказываю (без всякой аналитики), что эта книга будет отличаться от прочих. Во-первых, она одна из первых на эту тему. Но, самое главное, она сконцентрирована на ином.

Большинство книг о больших данных будут посвящены управлению большими данными: тому, как собирать их в базу данных или хранилище данных, или тому, как структурировать и классифицировать их. Если вы много читаете о Hadoop, MapReduce или других методах хранения данных, это значит, что вы наткнулись на книгу, посвященную управлению большими данными.

Это, конечно, важная работа. Независимо от их объема и качества данные мало чем полезны, если их не поместить в такую среду и формат, которые позволят получить к ним доступ и проанализировать их.

Сама по себе тема управления большими данными не обеспечивает движения вперед. Для того чтобы извлечь пользу из данных, необходимо проанализировать их и совершить какое-либо действие на основании результатов анализа. Так же как традиционные инструменты управления базами данных не обеспечивали автоматический анализ данных о транзакциях, полученных из традиционных систем, системы Hadoop и MapReduce не производят автоматическую интерпретацию данных, полученных от сайтов, картирования генов, анализа изображений или других источников больших данных. Даже до наступления эпохи больших данных многие организации многие годы (а иногда и десятилетия) занимались исключительно управлением данными, не извлекая из них никакой пользы в плане улучшения качества анализа и принятия решений.