Автомобильные компании, торговцы данными, телекоммуникационные компании, магазины и технологические гиганты – все хотят знать, где вы. Вы можете надеяться на то, что все эти огромные объемы данных о вас будут обезличены. Но, к сожалению, обезличенные данные легко могут быть повторно идентифицированы. Один из первых уроков по повторной идентификации был преподан Латанией Суини в 1996 году, когда Комиссия по групповому страхованию (GIC) Массачусетса опубликовала анонимные данные о посещениях больниц госслужащими. Когда губернатор Уильям Велд заверил общественность, что конфиденциальность пациентов была в безопасности, Суини доказала, что он не прав, найдя его медицинские записи в базе данных и отправив их в его офис. Она позже показала, что 87 % американцев можно идентифицировать всего по нескольким данным: дата рождения, пол и почтовый индекс[56].
Другой способ, при помощи которого вас могут идентифицировать, – это ваше местоположение. У каждого человека свой след местоположения, поэтому, даже если вашего имени нет в базе данных, легко определить, кто вы такой. Специфика данных о местоположении неудивительна, учитывая, что обычно существует только один человек, который живет и работает там, где вы. Ив-Александр де Монжуа с коллегами изучили данные о местонахождении 1,5 миллиона человек за пятнадцать месяцев. Де Монжуа и его коллеги обнаружили, что в наборе данных, в котором местоположение людей регистрируется ежечасно с пространственным разрешением, равным разрешению антенн оператора сотовой связи, достаточно иметь четыре точки пространственно-временных данных, чтобы однозначно идентифицировать 95 % людей[57]. Точно так же, когда исследователи посмотрели на выписки с кредитных карт более миллиона человек за три месяца, они обнаружили, что им нужно всего четыре точки пространственно-временных данных, чтобы однозначно повторно идентифицировать 90 % людей[58].
Базы данных часто можно персонифицировать, сопоставив их с общедоступной информацией. В 2006 году Netflix опубликовал 10 миллионов рейтингов фильмов по данным, собранным у полумиллиона клиентов, чтобы разработать лучший алгоритм рекомендаций. Данные должны были быть анонимными, но исследователи из Техасского университета в Остине доказали, что они могут повторно идентифицировать людей, сравнивая рейтинги и отметки времени с общедоступной информацией в базе данных Internet Movie Database (IMDb). Предпочтения относительно фильмов очень показательны – они могут выявить политические вкусы и сексуальные наклонности. Некая мать с лесбийскими наклонностями подала в суд на Netflix за то, что та подвергла ее риску разоблачения[59].
Продавцы данных вводят общественность в заблуждение, заявляя, что анонимизируют данные[60]. На самом деле они торгуют персональными данными. Они собирают все виды чрезвычайно конфиденциальной информации, консолидируют ее и продают банкам, страховым компаниям, розничным торговцам, телекоммуникационным компаниям, медиакомпаниям, правительству и иногда даже преступникам[61]. Эти компании продают информацию о том, сколько денег вы зарабатываете, беременны ли вы или разведены, пытаетесь ли вы похудеть. Также известно, что они продают списки жертв изнасилования, больных СПИДом и людей из других проблемных категорий[62].
В онлайн-рекламе также используется сомнительная категоризация для таргетинга отдельных лиц. Бюро интерактивной рекламы – торговая группа, которая создает отраслевые нормы, – использует категории для целевой рекламы, которые включают группы поддержки жертв инцеста или насилия, злоупотребляющих психоактивными веществами и больных СПИДом или ВИЧ-инфицированных. Категории Google для рекламного таргетинга аудитории также включают наркоманию, заболевания, передающиеся половым путем, мужскую импотенцию и политические пристрастия правого и левого толка[63]. Эти категории показывают то, что является предметом интереса стервятников данных, желающих знать, где мы больше всего уязвимы. Как хищники, которые чувствуют запах крови, они ищут наши слабости, чтобы использовать их.
56
57
58
59
60
61
62
63