Выбрать главу

Любое обсуждение темы больших данных начинается с попытки оценить, с каким объемом информации мы имеем дело. Предупреждаю: с большим. Авторы одной из лучших книг по этой теме (с удивительно понятным названием «Большие данные»[6]) Кеннет Кукьер и Виктор Майер-Шенбергер подсчитали в 2013 году, что если бы всю информацию в мире скопировали на CD, а затем сложили их один на другой, получились бы пять отдельных стопок, каждая из которых была бы высотой до Луны.

Сегодня к этим стопкам прибавились бы еще пять новых, но фактически это не имеет значения, так как сделать стопку такой высоты все равно невозможно. Важный вывод из этого заключается в том, что практически вся новая информация сегодня создается в цифровом формате. В 2000 году только около четверти всех данных хранились в цифровом виде. Сегодня это 99 %.

Перспектива больших данных в том, что мы сможем узнать еще больше. Хотя не все так просто. Датафикация не гарантирует финального результата, который вы сможете использовать. Подавляющий объем новых данных плохого качества или с трудом поддается анализу. Например, сегодня практически все системы видеонаблюдения оснащены цифровыми камерами. Однако компьютеры пока не могут «смотреть» изображения с этих камер и определять, что они видят, кроме элементарных, но важных вещей, например большого скопления людей. Хранение тысяч документов в формате текстового редактора – это замечательно, если вам нужно найти слово или фразу, но уже не так хорошо, если у вас нет времени читать все документы по результату поиска. Большинство людей осуществляют поиск для решения проблемы, а не потому что хотят что-нибудь почитать.

Большие данные по определению представляют собой слишком объемный и сложный массив информации по сравнению с теми базами, с которыми обычно работают компании. Для управления этими данными, для их обновления и обеспечения их безопасности не обойтись без применения специальных технологий. Это сложно и дорого, и большинство компаний не могут себе этого позволить. Если ваша организация в их числе, то чем вам могут оказаться полезными большие данные?

Во-первых, те, кто работает с ними, предлагают самые разные варианты их использования для повышения эффективности бизнеса, нередко даже бесплатно. Самый очевидный пример – целый ряд сервисов от компании Google: это и карты Google Maps, и новостные ленты с персональными настройками, и отчеты о статистике по сайтам, которые составляет Google Analytics.

Большие данные также способствуют решению проблем, позволяя поставщикам услуг создавать экспертные системы на основе машинного обучения и искусственного интеллекта. Самым простым примером может служить рекомендательный сервис интернет-магазина Amazon «Люди, купившие это…». Такой тип приложения с использованием «коллективного разума» обладает свойствами, характерными для больших данных: этот сервис не идеален, потому что механизм его работы заключается в том, что он ищет соответствия выявленным ранее закономерностям в информации и совмещает их с потенциальными потребностями пользователя. Тем не менее этот алгоритм работает быстро и лучше, чем просто догадка, а, как нам уже известно, большинство сотрудников впустую тратят 60 % рабочего времени и интуиция не слишком эффективное руководство для принятия решений.

Эти экспертные системы датафицируют функции, которые раньше относились к области человеческих навыков, например набор текста и перевод. Признайтесь, вам нравится перепечатывать тексты? Качество оборудования, распознающего речь, стало гораздо выше, но не потому что мы изобрели новые принципы работы программного обеспечения этого типа, а потому что компьютеры применяют большие данные для самостоятельного обучения. Обучение экспертных систем происходит за счет введения аудиозаписей, отобранных из интернета, вместе с расшифровкой, после чего система анализирует их и самостоятельно «обучается». Если вы не используете ПО для переформатирования аудиозаписей в текст, потому что вы попробовали это в 1990-х годах и получилась полная ерунда (а так оно и было), протестируйте современные онлайн-приложения, например Transcribe, и вы будете поражены. Эти сервисы бесплатны или предлагают свои услуги за символическую стоимость. В основе их работы лежат большие данные, а вы пользуетесь только конечным результатом. Можете ли вы использовать большие данные как-то еще? Да и нет.

вернуться

6

Издана на русском языке: Кукьер К., Майер-Шенбергер В. Большие данные. М.: Манн, Иванов и Фербер, 2014.