По оценке IDC, в 2012 году объем рынка систем хранения данных составил 8,6 млрд долларов, при этом за год в мире было сгенерировано 2,43 зеттабайта информации, что в два раза больше, чем в 2010 году (1,2 Зб). И перспективы у рынка заманчивые: «В корпоративной практике пока используется лишь 15–20 процентов доступных данных, прежде всего те, что имеются в табличной форме. Остальное — неструктурированные данные, но именно они растут в мире опережающими темпами. Среди них много информационного мусора: фото, видео, не применимые в бизнес-практике. Но важную часть неструктурированных данных составляют цифровые следы деятельности электронных устройств. Каждое из них имеет свой протокол работы и формат log-файла, что затрудняет их анализ. Но из них можно извлечь рациональное зерно», — считает Сергей Золотарев.
Действительно, устройства, незаметно окружившие нас, способны рассказать намного больше, чем может представить себе незадачливый обыватель. Например, многое можно вычислить, имея лишь доступ к показателям обычных квартирных счетчиков электричества и воды. Этого достаточно не только для того, чтобы узнать, сколько людей живет в квартире и когда их не бывает дома (уже одно это может заинтересовать многих — от воров до проповедников). По данным этих двух счетчиков можно диагностировать диарею и запоры, уровень дохода, бессонницу и телевизионные пристрастия.
Но пока рано ждать от жэков событийно обусловленной доставки слабительных и свежей прессы по технологии «точно в срок». Хотя технических проблем с использованием больших данных нынче нет даже в среднем бизнесе. Стопором является нехватка кадров и непонимание руководством компаний возможностей их применения. На большинстве российских рынков еще не настолько сильна конкуренция, чтобы data science стала фактором выживания для многих. Но ситуация быстро меняется. «Когда два года назад я рассказывал о больших данных, то видел серьезный скепсис. Российские компании считали это уделом западных интернет-гигантов. Сейчас уже вся тройка сотовых операторов, крупнейшие банки и телеком-компании либо уже внедрили, либо внедряют подобные решения. Это как с визитом к стоматологу: пугает, но, как ни откладывай, жизнь заставит, — убежден Сергей Золотарев. — Рынок больших данных начинался с закрытых решений — “черных ящиков” для клиента, включающих в себя как железо, так и софт. На наш взгляд, будущее за открытыми платформами, которые могут быть развернуты на любом стандартном сервере. Кроме того, меняется сама парадигма работы с данными. Прежде в фокусе внимания были приложения, выполняющие какую-то одну законченную функцию, но из-за этого компания оказывалась вооружена рядом несовместимых программ, а передача данных из одной в другую, например чтобы сопоставить геолокационные данные клиента с историей его покупок, оказывалась затруднительной. В ближайшее время стоит ожидать серьезного прорыва по мере перехода к парадигме, ориентированной на хранение и организацию данных. Подбор конкретного специализированного приложения становится вторичным».
Мнение о том, что большие данные — это адронный коллайдер и интернет-гиганты, все еще распространено. Хотя данные для анализа можно найти и в небольшом магазинчике. «Веб-мастерам давно известны “тепловые карты” сайтов, позволяющие оптимизировать удобство пользовательского интерфейса. Но эта история была перенесена и в офлайн. Почти каждый торговый центр сейчас оснащен камерами слежения. Был написан софт, распознающий передвижение покупателей и составляющий карты их движения с учетом времени, которое они провели у каждой полки, — в итоге получаются “тепловые карты” торгового зала. Пропустив через этот софт сотни гигабайт видеозаписей, можно выявить “слепые зоны” магазина, временные закономерности, а также оценить эффективность изменений в выкладке товара, — рассказывает Андрей Себрант. — Истории о том, что неявные данные будут неожиданным образом интерпретироваться для предложения новых товаров клиентам, будут только множиться. По мере того как мы все больше оцифровываем нашу жизнь, офлайновые магазины научатся вести себя так же адаптивно, как и веб-страницы, меняя выкладку по дням и часам. Этот мир, возможно, консерваторам будет не очень приятен — слишком адаптивные системы многих пугают».