Выбрать главу
Распознавание образов

В главе об анализе данных нельзя обойти стороной тему распознавания образов как одну из основных целей анализа. Для распознавания образов можно использовать все описанные выше средства: нейронные сети, метод опорных векторов, метод главных компонент и другие. Как вы видите, распознавание образов имеет непосредственное отношение к машинному обучению.

Цель системы-классификатора, подобно нейронной сети или методу опорных векторов, — предсказать, к какому классу относится данная выборка, то есть классифицировать ее. Поэтому системе-классификатору в целях обучения следует передать множество выборок известных классов. После обучения системы ей можно будет передавать для классификации новые выборки. Как и в описанных выше методах, начальное множество выборок известных классов обычно делится на два подмножества — обучающее и тестовое. Тестовое множество помогает проверить, не переобучена ли система.

При создании классификаторов применяются два подхода: мичиганский, предложенный исследователями из Мичиганского университета, и питтсбургский, появившийся, соответственно, в университете города Питтсбурга. В мичиганском подходе описывается эволюционный алгоритм, в котором в роли эволюционирующих особей выступают правила, каждое правило содержит множество условий и цель.

Класс выборки укажет правило, с набором условий которого совпадает выборка.

В питтсбургском подходе, напротив, каждая особь представляет собой множество правил, а приспособленность особи оценивается по средней ошибке для каждого из этих правил. Оба подхода, которые в немалой степени дополняют друг друга, имеют свои преимущества и недостатки. В последние 30 лет исследователи предлагают различные улучшения обоих подходов, чтобы компенсировать их неэффективность.

Практический пример: анализ продаж

Еще одна важная область применения искусственного интеллекта в бизнесе — это работа с хранилищами данных, которые широко используются предприятиями с большой клиентской базой и, следовательно, с большой базой выборок. Путем анализа базы выборок можно определить тенденции, закономерности и шаблоны поведения. Хранилище данных — это место, куда стекаются данные со всего предприятия, будь то данные о продажах, производстве, результатах маркетинговых кампаний, внешних источниках финансирования и так далее. Сегодня хранилища данных используются в таких областях, как банковская сфера, здравоохранение, розничная торговля, нефтепереработка, государственная служба и другие.

Создание и структурирование хранилища данных — сложная задача, на решение которой инженерам потребуется несколько месяцев и даже лет. После того как хранилище данных выстроено, структурировано и обеспечена его корректность, содержащиеся в нем данные изучаются и анализируются с помощью так называемых OLAP-кубов, которые в действительности представляют собой гиперкубы. OLAP-куб (от англ. OnLine Analytical Processing — «аналитическая обработка в реальном времени») — это многомерная структура данных, позволяющая очень быстро выполнять перекрестные запросы к данным различной природы. О LAP-куб можно считать многомерным вариантом электронной таблицы. К примеру, электронная таблица, в которой представлены данные о продажах молочных продуктов нашей компании в разных странах в прошлом году (в тысячах штук), может выглядеть так.

Если мы хотим получить данные о продажах в отдельные месяцы, нужно добавить к таблице третье измерение, в котором для каждого региона и типа продукции представленные данные будут разбиты на 12 месяцев.

Сформировав куб, мы сможем выполнять различные виды сложного анализа данных с учетом предварительно выстроенной структуры куба. Заметим, что основные затраты вычислительных ресурсов при использовании хранилища данных связаны не с самим анализом данных, а с построением множества гиперкубов. Гиперкубы могут отражать данные организации с учетом множества возможных сочетаний. Поэтому OLAP-кубы, как правило, строятся по ночам, а используются и анализируются на следующий день.

С помощью OLAP-кубов аналитики компании, производящей молочные продукты, могут ввести в систему новое измерение — погодные условия в каждый день года в каждом регионе, где продаются продукты компании. Это новое измерение позволит изучить уровень потребления различных продуктов в зависимости от температуры.

Располагая этими знаниями и прогнозами погоды, аналитики могут предсказать, какой объем всех видов продукции следует произвести в каждом регионе, чтобы свести запасы молочной продукции к минимуму. Отметим, что соблюдение температурного режима хранения молочных продуктов требует немалых расходов.

Часто измерения OLAP-кубов дополнительно усложняются, и в пределах одного измерения вводятся иерархии. Так, в предыдущем примере измерение, описывающее погоду, можно дополнить новой иерархией, например привести данные о погоде за каждый день или в каждом квартале, так как уровень потребления молочных продуктов будет гарантированно отличаться летом и зимой, в начале и в конце месяца.

Можно сформировать иерархию регионов и ввести как более крупные (Центральная Европа, Южная Европа), так и более мелкие области (Ломбардия, Бретань, Андалусия).

Разумеется, после завершения построения с помощью OLAP-кубов можно решать различные задачи визуализации данных, помимо очевидного анализа, о котором мы уже рассказывали. К примеру, можно изображать двухмерные сечения куба или отдельные «кубики» (небольшие многомерные части куба), складывать или вычитать значения в рамках иерархий и даже вращать куб, чтобы взглянуть на данные с другой стороны.

* * *

MICROSOFT RESEARCH

Сегодня крупнейшим коммерческим исследовательским центром мира, где ведутся работы по изучению искусственного интеллекта, является Microsoft Research. В этом центре работают авторитетные ученые, которые занимаются изучением столь важных вопросов, как машинное обучение или новые способы взаимодействия человека и машины. Microsoft Research имеет представительства в самых разных странах, в частности в Германии, США, Великобритании, Китае, Индии и Египте.

Специалисты центра являются мировыми лидерами в области использования байесовских сетей и других вероятностных методов в таких областях, как обнаружение нежелательных писем (спама) или интеллектуальная адаптация интерфейса информационных систем к шаблонам поведения пользователей.

Глава 6. Искусственная жизнь

Дать определение понятиям «жизнь» и «интеллект» трудно как с точки зрения биологии, так и с точки зрения философии. Возможно, это так же сложно, как и дать формальное определение интеллекта. В первой главе мы уже говорили о философских и математических дискуссиях, целью которых было определение понятия «интеллект»: это тест Тьюринга, «китайская комната», споры о творчестве и так далее.

Один из самых активных и авторитетных специалистов в этой области, Джон Холланд (род. 1929), также занимавшийся эволюционными алгоритмами, глубоко изучил этот вопрос и пришел к выводам, которые помогут нам определить, что такое жизнь.

Искусственная жизнь тесно связана с другим важным понятием в рамках искусственного интеллекта — так называемыми мягкими вычислениями (soft computing).