Как это достигается? Машины-писатели сегодня, как правило, работают по предсказательной модели, то есть базируясь на предыдущем тексте, они предсказывают следующую фразу, следующее слово и так далее. В итоге получается текст заданного объема. Языковым сырьем, с которым работает память таких машин, служит «Википедия», объем которой составляет сегодня порядка 50 миллионов статей, новости и другие материалы из интернета, а также оцифрованные книги. Это невероятный объем слов, текстов и данных, поэтому машине-писателю уже сейчас не составляет большого труда скомпилировать, например, новость или журналистский материал, который люди примут за написанный человеком.
Прежним моделям, однако, требовался ручной ввод некоторых данных, относящихся к теме текста, а значит, итоговый текст не был в полной мере машинным. Модель GPT-2 значительно лучше, чем прежние модели, справляется с такими языковыми задачами, как ответы на вопросы, понимание прочитанного, суммирование и машинный перевод. Она самостоятельно ищет относящиеся к теме материалы, анализирует их, если нужно — переводит, ставит сама перед собой новые языковые задачи и так далее. Более того, через социальные сети GPT-2 выявляет именно те факты и темы, которые гарантированно вызовут интерес читателей, и может проверить качество текстов.
OpenAI базируется в Сан-Франциско и основано известными предпринимателями Илоном Маском и Сэмом Альтманом. Маск не раз предупреждал об опасностях, которыми чревато бесконтрольное развитие технологий ИИ, вот и в этот раз лаборатория выпустила предостережение. В нем говорится, что полная версия модели GPT-2 не будет доступна разработчикам из опасений, что те смогут применить ее в дурных целях, например, для создания фейковых новостей, комментариев на форумах или отзывов в интернет-магазинах — их будет невозможно отличить от настоящих.
Надо сказать, примерно в то же самое время искусственный интеллект научился создавать правдоподобные фотографии людей, не существующих в реальности. Фейковость фото сможет распознать другая машина, но будут разработаны алгоритмы, которые обманут и ее, то есть началась гонка искусственных разумов, и человек должен будет верить не своим глазам, а их заключению.
Разумеется, очень скоро и другие разработчики смогут достичь того же уровня, что и OpenAI. И это напрямую касается не только журналистики, а и большой литературы: ведь модель GPT-2 уже сегодня вполне может написать если не оригинальное литературное произведение, то сиквел, например, «Унесенных ветром» или очередной роман Дарьи Донцовой.
Телепродюсеры все время жалуются на качество сценариев сериалов. Как правило, в таких проектах нужно выдать десятки серий за несколько недель, не забыв ни одного из героев, не запутавшись в их высоких отношениях и каждые две минуты устраивая захватывающий поворот сюжета. Нужно сделать так, чтобы сериал как две капли воды был похож на хорошо продаваемый аналог и предыдущие опробованные клише, но при этом все-таки отличался. Не удивительно, что авторы сатанеют и либо лепят халтуру, либо бегут от продюсеров куда глаза глядят. Теперь и эта проблема решена: подключайте к работе GPT-2, и он напишет вам сто серий за два часа, учитывая все запросы, а если захотите продолжение, назавтра пришлет еще десять сезонов.
ПОДХОДЫ К ПОНИМАНИЮ ЕСТЕСТВЕННОГО ЯЗЫКА
Хотя GPT-2 удалось серьезно продвинуться по сравнению с другими языковыми моделями, методика, которую использовали разработчики, не нова. Профессор информатики Стэнфордского университета Перси Лян признает, что прорыв удалось совершить не из-за революционных решений, а прежде всего благодаря большому массиву данных, примененных в обучении нейросети.
Среди прочих, перед GPT-2 ставилась задача понимания естественного языка —того, что называется NLP (natural-language processing). Это необходимо, например, в работе чатботов и виртуальных помощников. Но при всех своих успехах нейросеть все еще не понимает, что пишет. В компьютерном зрении есть подобная проблема: машина может создать реалистичную картинку в хорошем разрешении, при этом она не будет понимать, что на картинке.
Понимание и обработка естественного языка и является главной целью создания подобных языковых моделей. Развитие NLP сейчас определяется четырьмя основными подходами. Каждый из них имеет дело с определенным пониманием языка, если хотите, его философией.
Для обучения модели GPT-2 использовался самый простой подход из этих четырех, известный как статистическая, или распределительная семантика.