Проблема в том, что не у всех это получается.
Ведь такие компании, как Google, Facebook, Amazon или китайский поисковик Baidu обучают свои машины на гигантских массивах данных, собранных у своих пользователей совершенно бесплатно, под покровом мрака, да и среди бела дня. А у какой-нибудь небольшой компании таких возможностей просто нет, что ставит ее в невыгодное положение по сравнению с компьютерными гигантами. Страшно было бы представить, что было бы, если бы даже мелкие фирмы имели бы достаточно данных, чтобы обучать свои небольшие искусственные интеллекты.
Тогда мы бы уже сегодня жили в мире, где все за нас делали бы роботы, от доставки умного кофе в умную постель до беспилотной перевозки прямо на криокладбище в комфортабельном умном гробу — тех, кого хватит удар от слишком быстрого наступления будущего. Впрочем, за вашу жизнь поборется робот-хирург, он не успокоится, пока клетка за клеткой не вытащит вас с того или иного света. После гибернации роботы имплантировали бы наши отдохнувшие мозги в выбранные алгоритмом для нас тела, принимали бы на работу и, соответственно, увольняли бы.
Знакомый нам мир быстро превращается в сериал «Черное зеркало», и если не у всех бизнесов есть настоящие данные, чтобы скормить их нейросетям, можно обойтись наборами фейковых данных.
ФЕЙКОВОЕ МАШИННОЕ ОБУЧЕНИЕ
Например, израильская компания Neuromation создала для одной из аналитических фирм массив размеченных изображений товаров на полках супермаркета. Фирма работает с такими сетями, как «Ашан», предлагая им свои услуги по отслеживанию товаров.
Модель с ИИ обучается на этом массиве распознавать продукты на полках с тем, чтобы проверять наличие товара, фиксировать в реальном времени продажи и так далее. Чтобы наснять такой массив изображений в реальности, нужны большие ресурсы. Ведь нужно не просто сфотографировать товар — а это отдельное искусство, нужно еще и вручную поставить на нем метку с категорией. Сколько для этого потребуется специально обученных сотрудников, если этих товаров сотня тысяч и больше? В Neuromation пошли по другому пути. Они создали трехмерные модели упаковок товаров, всех этих коробочек, бутылочек и пакетиков, наложили на них текстуры разных этикеток, разместили эти трехмерные модели на полках и получили, таким образом, целый массив размеченных данных. При этом важно было создать шум, то есть сделать так, чтобы объекты на полках были размещены самым случайным образом, в полном беспорядке, да еще и с ошибками. Сделав это, компания получает для обучения нейросетей некий типовой набор изображений уже классифицированных продуктов, только с той разницей, что изображения эти не настоящие, а сгенерированные компьютером. Компьютерная модель учится распознавать и классифицировать эти фейковые изображения, которые, надо признать, выглядят совершенно неестественно для человеческого глаза. Если посмотреть на тот массив, что «скармливается» компьютеру для обучения, видно, например, что тушка свиньи выглядит не живой, а просто наклеенной. Но свинья есть свинья, она подписана как свинья, имеет форму свиньи, и на выходе ИИ опознает ее, скорее всего, как свинью. Что и требуется.
Neuromation, конечно, не использует термин «фейковые данные» для обозначения этих изображений, предпочитая нейтральное выражение «синтетические данные». Действительно, мы же не говорим «эта рубашка из фейкового шелка», имея в виду «искусственный шелк». Слово «фейковый» имеет явно негативную коннотацию, как если бы кто-то что-то скрывал, но компания ведет открытую игру и никого не обманывает.
Синтетические данные —это данные, сгенерированные компьютером, которые имитируют реальные данные; другими словами, это данные, созданные не человеком, а компьютером. В прекрасном новом мире искусственного интеллекта в искусственных данных нет ничего особенного. Синтетические данные помогают в обучении нейросети определенным реакциям на определенные ситуации, просто заменяя данные, собранные в реальном мире, на компьютерные имитации. Самое главное, чтобы данные, будь они синтетическими или реальными, были промаркированы — только тогда ими можно будет пользоваться.