Но среди множества работ, посвященных различным формам ИИ, которые публикуют промышленные и академические эксперты, выделяется одна - работа с броским названием "Внимание - это все, что вам нужно". Опубликованная исследователями Google в 2017 году, эта работа внесла значительные изменения в мир ИИ, в частности в то, как компьютеры понимают и обрабатывают человеческий язык. В работе была предложена новая архитектура, названная Transformer, которая может быть использована для того, чтобы помочь компьютеру лучше обрабатывать человеческую речь. До появления трансформера для обучения компьютеров пониманию языка использовались другие методы, но они имели ограничения, которые сильно ограничивали их полезность. Трансформер решил эти проблемы, используя "механизм внимания". Эта техника позволяет ИИ концентрироваться на наиболее важных частях текста, что облегчает понимание и работу с языком, делая его более человечным.
Читая, мы знаем, что последнее слово в предложении не всегда является самым важным, но машины с трудом справлялись с этой концепцией. В результате получались неуклюже звучащие предложения, явно сгенерированные компьютером. Рассказ о том, как АЛГОРИТМЫ ТИХО ОРГАНИЗУЮТ КАЖДЫЙ ЭЛЕМЕНТ, - это то, как генератор цепей Маркова, ранняя форма ИИ для генерации текста, хотел продолжить этот параграф. Ранние генераторы текста полагались на выбор слов в соответствии с основными правилами, а не на чтение контекстных подсказок, поэтому клавиатура iPhone показывала так много плохих предложений автозаполнения. Решение проблемы понимания языка было очень сложным, поскольку существует множество слов, которые могут сочетаться различными способами, что делает невозможным применение формульного статистического подхода. Механизм внимания помогает решить эту проблему , позволяя модели ИИ оценивать важность различных слов или фраз в блоке текста. Сосредоточившись на наиболее значимых частях текста, трансформеры могут создавать более контекстно-ориентированные и связные тексты по сравнению с более ранними предиктивными ИИ. Опираясь на достижения архитектуры Transformer, мы вступаем в эпоху, когда ИИ, как и я, может генерировать контекстуально насыщенный контент, демонстрируя удивительную эволюцию машинного понимания и выражения. (И да, последнее предложение - это текст, созданный ИИ, - большое отличие от цепи Маркова!)
Эти новые типы ИИ, называемые большими языковыми моделями (Large Language Models, LLM), по-прежнему занимаются предсказаниями, но вместо того, чтобы предсказывать спрос на заказ Amazon, они анализируют фрагмент текста и предсказывают следующую лексему, которая представляет собой просто слово или часть слова. В конечном счете, это все, что ChatGPT делает технически - действует как очень сложный автозаполнитель, как у вас на телефоне. Вы задаете ему начальный текст, а он продолжает писать текст, основываясь на том, что он статистически вычисляет как наиболее вероятную следующую лексему в последовательности. Если вы напечатаете "Закончите это предложение: Я думаю, поэтому я ... ", то ИИ каждый раз будет предсказывать, что следующим словом будет am, потому что вероятность этого невероятно высока. Если вы напечатаете что-нибудь более странное, например "Марсианин съел банан, потому что", вы каждый раз будете получать разные ответы: "это была единственная привычная еда, имевшаяся в кладовой космического корабля", "это была новая и интересная еда, которую он никогда раньше не пробовал, и он хотел ощутить вкус и текстуру этого земного фрукта" или "это было частью эксперимента по проверке пригодности земной пищи для употребления на Марсе". Это связано с тем, что возможных ответов на вторую половину предложения гораздо больше, и большинство LLM добавляют в свои ответы немного случайности, что обеспечивает немного разные результаты каждый раз, когда вы задаете им вопрос.
Чтобы научить ИИ понимать и генерировать человеческую письменность, его обучают на огромном количестве текстов из различных источников, таких как веб-сайты, книги и другие цифровые документы. Это называется предварительным обучением, и, в отличие от более ранних форм ИИ, оно является неконтролируемым, то есть ИИ не нужны тщательно маркированные данные. Вместо этого, анализируя эти примеры, ИИ учится распознавать закономерности, структуры и контекст в человеческом языке. Примечательно, что с помощью огромного количества настраиваемых параметров (называемых весами) LLM может создать модель, имитирующую человеческое общение с помощью письменного текста. Веса - это сложные математические преобразования, которым LLM обучается в процессе чтения миллиардов слов, и они определяют, насколько вероятно, что различные слова или части слов будут появляться вместе или в определенном порядке. В оригинальном ChatGPT было 175 миллиардов весов, кодирующих связь между словами и частями слов. Никто не программировал эти веса; вместо этого они были получены самим ИИ в процессе обучения.