Прогнозирование выбытия населения
Во всех исследованиях, описанных в этой главе, для проверки точности прогнозирования эвристики или алгоритма использовался метод кросс-валидации. В базовой форме кросс-валидации набор данных делится на две части: обучающую и тестирующую выборки. Свободные параметры модели оцениваются на обучающей выборке, и с этими значениями параметров модель применяется на тестирующей выборке: точность модели там является ее предсказательной точностью. Этот подход также известен как предсказание вне выборки и обычно практикуется в машинном обучении и аналитике данных. Он является улучшением по сравнению с подгонкой данных, при которой параметры модели оцениваются по всему набору данных, а точность модели определяется тем, насколько хорошо она соответствует данным. Подгонка данных имеет тенденцию "объяснять" закономерности, вызванные случайным шумом, что приводит к чрезмерной подгонке. Использование подгонки вместо прогнозирования - проблема, до сих пор не признанная многими исследователями и практиками бизнеса. Она способствует возникновению иллюзии сложности - убежденности в том, что сложные стратегии всегда будут более точными, чем простые. Сложные стратегии с большим количеством свободных параметров могут лучше подходить к данным, но не обязательно лучше предсказывать их на основе выборки.
Однако модели, хорошо справляющиеся с предсказаниями вне выборки, могут столкнуться с проблемами, когда их применяют для предсказаний вне популяции, когда модели, обученные на наборах данных, представляющих одну популяцию, используются для предсказания моделей другой популяции. В данном случае популяция имеет свободное определение. Это может быть группа людей, сфера деятельности или события в определенный период времени или в определенном месте. В мире VUCA обобщаемость модели для разных групп населения может быть весьма сомнительной. Например, в случае принятия решений о выдаче кредитов эффективные модели, разработанные для небольших компаний, работающих в крупных городах в 2010-х годах, могут перестать работать для других типов компаний или даже для тех же типов компаний в 2020-х годах, поскольку могут измениться сигналы, политика и экономическая среда. Эвристика умножения на 6 - еще один наглядный пример: она хорошо работает для прогнозирования доходов от покупок в приложениях, но не для разных видов доходов. В этом случае решение состоит в том, чтобы оценить мультипликатор для других областей на основе данных. В следующем обсуждении мы приведем еще два примера этой проблемы в здравоохранении.
После вспышки пандемии COVID-19 больницы и медицинские исследователи по всему миру разработали сотни алгоритмов искусственного интеллекта, чтобы помочь диагностировать пациентов и управлять ресурсами. Эффективные алгоритмы не только спасли бы мир, но и имели бы огромный коммерческий потенциал. Но в 2021 году, через два года после начала пандемии, в нескольких обзорных исследованиях было заявлено, что алгоритмы в основном бесполезны, а некоторые даже могут быть вредны. 19 У этого колоссального провала есть множество причин. Одной из главных является невозможность обобщить алгоритм за пределами набора данных, на котором он был обучен.
По словам Дерека Дриггса, соавтора одного из обзорных исследований, их группа из Кембриджского университета обучала свой алгоритм на наборе данных со снимками грудной клетки, сделанными, когда пациенты находились в положении лежа или стоя. 20 Поскольку те, кого сканировали в положении лежа, как правило, были более серьезно больны, алгоритм использовал этот весьма показательный, но ложный признак (т. е. положение тела) при классификации пациентов с высоким и низким риском. В другом случае исследователи обучали свои алгоритмы на сканах здоровых детей как на экземплярах пациентов, не относящихся к группе COVID-19. В результате алгоритмы научились отличать детей от взрослых, но не отличать неинфицированных, большинство из которых были взрослыми, от инфицированных, поэтому их диагностическая ценность была невелика. Эти примеры показывают, что даже если предсказание вне выборки является превосходным, предсказание вне популяции все равно может оказаться неудачным, поскольку алгоритмы могут улавливать сигналы, которые не имеют отношения к задаче.