Кроме того, компания рекомендует лишь начать обучение с синтетических данных, а в конце использовать все же некоторое количество реальных — для повышения качества распознавания образов.
Обучение моделей с ИИ на массивах синтетических данных используется в разных отраслях: в ритейле, робототехнике, в автономных автомобилях, в промышленности. К примеру, разработчики самоуправляемых электромобилей давно поняли, что просто нереально по времени наездить достаточное количество настоящих миль по всей стране и собрать достаточное количество реальных данных для того, чтобы обучить автомобили автономному вождению. Да их никто и не пустит на улицы в таком количестве и повсюду! А как обучить машину не падать с моста или с обрыва? Позволив ей пару тысяч раз упасть с моста в беспилотном режиме? Тренируйтесь себе в тупичке или сбивайте друг друга перед своим офисом по адресу 1 Hacker Way, Menlo Park, CA.
Тогда разработчики софта для электромобилей предложили гениальное решение: учить машины вождению по игре Grand Theft Auto. Ну хотя бы вначале — а последний час езды, так и быть, можно отработать на реальной дороге. По слухам, ребятам из компании Rockstar, которой принадлежит игра, это не понравилось. Может быть, они представили себя в кресле пассажира этого электромобиля. Фантазии не хватило понять, что всё это в твоем воображении, бро. В итоге разработчики софта для машин все же стали создавать для обучения целые воображаемые города, в которых их модели тупо накатывают свои воображаемые мили.
Недавно Facebook предложил свою модель машинного обучения Densepose, которая может применять спецэффекты к людям в видео. Система обучена с использованием изображений 50 тысяч людей, снятых с 5 миллионов точек и аннотированных вручную. Сразу же появился некий стартап, который стал синтезировать данные по тому же принципу, что и Densepose, и на базе продукта ««Фейсбука»» сделал свой собственный, с синтетическими изображениями.
Примерно как индийский завод по производству дженериков, который копирует таблетки фирмы Pfizer, не беспокоясь по поводу лицензий.
Не то чтобы такое копирование разрешено или одобряется, но на подобные действия мелких компаний именно в этой области — машинного обучения — большие игроки пока что закрывают глаза. Когда у стартапа особо нет денег и нет данных, стратегия «взять это у больших ребят» считается вполне законной. Если данные — это новая нефть, то такой подход можно сравнить с возгонкой биодизельного топлива в своем дворе. Кустарно, пованивает, может, не очень качественно, но, с молитвой, машина поедет.
Самый модный прием машинного обучения в кругах разработчиков софта на синтетических данных —это GANs (генеративно-состязательные сети, generative adversarial networks). С их помощью довольно быстро, например, можно создать реалистические картинки.
Этой техникой пользуется и художник Макс Клингеман, который в 2016 году был резидентом Гугловского института искусств в Париже (есть уже и такой). С помощью GANs он создал интерактивную онлайн-инсталляцию, которая использует распознавание образов, чтобы найти сходство между любыми двумя изображениями. В нейросеть заводятся оба изображения, к примеру, древнеримской скульптуры и автопортрет Фриды Кало, и алгоритм находит некие общие связи между этими изображениями, выдавая на выходе нечто напоминающее и то, и другое. Свою технику Клингеман назвал тоже по-модному, «нейрографией».
Сколько на своей нейрографии заработал Клингеман, мы не знаем, но израильский стартап DataGen присылает счета на семизначные суммы за услугу по генерированию под заказ видеоданных синтетических — симулированных — фейковых — рук. Руки, Карл! Выглядят страшновато, но для обучения компьютера пойдут.
Ведь самое главное — это чтобы в изображение поверил не человек, а компьютер.
Идею использования фейковых данных для обучения подхватили и сами мегакорпорации, у которых вроде бы денег куры не клюют. Гугл уже обучает роботов жить и строить в симулированных мирах, a Microsoft в 2017 году опубликовал работу своих исследователей в области машинного перевода с левантийского диалекта арабского языка на английский, в которой те использовали два миллиона синтетических предложений, созданных специально для обучения переводчика компьютером. Можно только догадаться, из каких компьютерно-левантийских ругательств состояли эти фейковые предложения, но ученые пишут, что в результате качество перевода улучшилось.