Выбрать главу

Промышленный комплекс науки о данных

Эта проблема касается всех. Компании бесконечно ищут продукты, которые думали бы за них. Менеджеры нанимают профессионалов в области аналитики, которые на самом деле таковыми не являются. Дата-сайентистов нанимают для работы в компаниях, которые к ним не готовы. Руководители вынуждены слушать техническую болтовню и делать вид, что понимают, о чем идет речь. Работа над проектами стопорится. Деньги тратятся впустую.

Тем временем промышленный комплекс науки о данных штампует новые концепции быстрее, чем мы можем определить и сформулировать порождаемые ими возможности (и проблемы). Стоит моргнуть, и обязательно что-нибудь пропустишь. Когда авторы этой книги начали работать вместе, все говорили о больших данных. Со временем популярной новой темой стала наука о данных. Затем внимание общественности сосредоточилось на машинном обучении, глубоком обучении и искусственном интеллекте.

Но самых любознательных и критически мыслящих из нас что-то не устраивает. Действительно ли эти проблемы новые? Или они просто переосмысление старых?

Ответ на оба вопроса утвердительный.

Однако мы надеемся, что вы задаетесь более важным вопросом – «Как научиться критически мыслить и говорить о данных?»

Мы вас этому научим.

В этой книге вы познакомитесь с инструментами, терминами и образом мышления, необходимыми для навигации по промышленному комплексу науки о данных. Вы научитесь понимать данные и связанные с ними проблемы на более глубоком уровне, критически относиться к данным и результатам, с которыми сталкиваетесь, а также разумно говорить обо всем, что касается данных.

Короче говоря, вы станете главным по данным.

Почему нам это важно

Прежде чем мы начнем, стоит сказать, почему авторов этой книги, Алекса и Джордана, так волнует эта тема. В этом разделе мы опишем два важных примера того, как данные повлияли на общество в целом и на нас лично.

Кризис субстандартного ипотечного кредитования

Мы едва закончили колледж, когда разразился кризис субстандартного ипотечного кредитования. Мы оба устроились на работу в ВВС в 2009 году, когда найти работу было очень трудно. Нам повезло, поскольку мы обладали востребованным навыком – мы умели работать с данными. Мы каждый день работали над преобразованием результатов исследований, проведенных аналитиками и учеными ВВС, в продукты, которые могло бы использовать правительство. Наш прием на работу стал предвестником грядущего роста важности тех ролей, которые мы исполняли. Будучи специалистами по работе с данными, мы наблюдали за развитием ипотечного кризиса с интересом и любопытством.

У кризиса субстандартного ипотечного кредитования было множество причин[3]. Приводя его здесь в качестве примера, мы не отрицаем прочие факторы, однако, по нашему мнению, важнейшим из них была серьезная проблема с данными. Банки и инвесторы создали модели для оценки ценности обеспеченных ипотекой долговых обязательств (CDO) – инвестиционных инструментов, ставших причиной обвала рынка США.

Облигации с ипотечным покрытием считались безопасными инструментами, поскольку распределяли риск дефолта по кредиту между несколькими инвестиционными единицами. Идея заключалась в том, что если лишь некоторые активы в портфеле ипотечных кредитов окажутся убыточными, это не окажет существенного влияния на стоимость всего портфеля.

И все же, если поразмыслить, становится очевидно, что некоторые фундаментальные предположения были неверны. В первую очередь речь идет о допущении независимости между возможными дефолтами, то есть предположении о том, что если заемщик А не выполнит обязательства по кредиту, это не повлияет на риск неплатежа заемщика Б. Впоследствии мы узнали о том, что дефолты происходят по принципу домино, то есть предыдущий дефолт может предсказать вероятность дальнейших дефолтов. Дефолт по одному ипотечному кредиту приводил к снижению стоимости находящейся поблизости недвижимости, что способствовало росту риска дефолта по соответствующим кредитам. По сути, один дом утягивал за собой соседние.

Допущение независимости фактически связанных между собой событий – распространенная ошибка в статистике.

вернуться

3

www.brookings.edu/wp-content/uploads/2016/06/11_origins_crisis_baily_litan.pdf