Siri представляет собой целый комплекс функционала: программное обеспечение по распознаванию речи, пользовательский интерфейс с естественным языком плюс личный помощник с искусственным интеллектом. Когда вы задаёте Siri вопрос, происходит следующее: ваш голос оцифровывается и передаётся на сервер Apple в Облако[43], пока локальное устройство распознавания речи сканирует его прямо на вашем iPhone. ПО распознавания речи переводит вашу речь в текстовый формат. Далее идет обработка естественного языка. Siri консультируется с тем, что писатель Стивен Леви называет «мозговым центром»: примерно двести мегабайтов данных о ваших предпочтениях, ваша манера речи и прочие детали. Если телефон может сам ответить на ваш вопрос («Заведёшь будильник на восемь утра?»), то обращение к Облаку не нужно. Если же Siri понадобятся данные из сети («Будет ли завтра дождь?»), она отошлёт запрос в Облако, и там его проанализирует другой ряд шаблонов и инструментов.
Прежде чем Siri стала ключевой функциональной возможностью iPhone, это было простым приложением в App Store, которое выпустила хорошо финансируемая молодая компания Кремниевой долины. А ещё раньше это был исследовательский проект в Стэнфорде, поддерживаемый Министерством обороны с целью создания помощника с искусственным интеллектом.
А ещё прежде это десятилетиями витало в виде идеи во всей технологической индустрии, в поп-культуре и храмах науки; даже у самой Apple имелся ранний концепт ИИ, способного к голосовому взаимодействию, ещё в 80-х годах.
А ещё прежде существовала Hearsay I[44], предшествовавшая Siri система распознавания речи. Грубер говорит, что именно она стала вдохновением для создания Siri.
Даббала Раджагопал «Радж» Редди родился в 1937 году в деревеньке с населением в пятьсот человек к югу от Мадраса, в Индии. В то время регион страдал от семилетней засухи и последующего голода. По словам Редди, он научился писать, выводя буквы на песке. Позже он испытывал языковые трудности, когда ему приходилось переключаться с родного диалекта на английский язык – единственный язык, на котором преподавали в колледже, где профессора говорили с ирландским, шотландским и итальянским акцентами. Редди пошёл в инженерный колледж при Университете Мадраса, а после отправился на стажировку в Австралию. Именно тогда, в 1959 году, он впервые познакомился с компьютером.
Он закончил магистратуру в Университете Нового Южного Уэльса, работал три года в IBM, а затем переехал в Стэнфорд, где в итоге защитил докторскую диссертацию. У него пробудилась тяга к изучению искусственного интеллекта, и когда профессор попросил его выбрать тему исследования, он склонился к одной особенно интересной для него: распознаванию речи.
«Я выбрал именно её, потому что меня интересовали различные языки сами по себе, так как я приехал из Индии и должен был выучить три или четыре языка, – рассказывал Редди в интервью 1991 года Институту Чарльза Бэббиджа. – Речь – это то общее, что есть у человечества… Чего я не знал на тот момент, так это того, что исследование обернётся делом всей моей жизни. Я думал, это всего лишь учебный проект».
На протяжении последующих нескольких лет он пытался создать систему для распознавания отдельно произносимых слов – компьютер, который мог бы понимать слова, которые ему говорят люди. Система, которую Редди со своими коллегами создал в шестидесятых годах, по его словам, «была самой обширной из всех, которые я только знал – где-то 560 слов или около того – с приличной точностью около 92 %». Как и в случае с большинством прогрессивных компьютерных исследований, крутившихся вокруг Стэнфорда в то время, финансирование осуществлялось Управлением перспективных исследовательских проектов (ARPA). Можно отметить нарастающий интерес к области ИИ со стороны управления, которое проспонсировало в семидесятых годах огромное множество проектов по распознаванию речи. В 1969 году Редди перебрался в Университет Карнеги-Меллона и продолжил свою работу. Там, опять же при поддержке ARPA, он запустил проект Hearsay – по сути, Siri в зачаточной форме. «Забавно, что это был речевой интерфейс, – говорит Грубер. – Нечто сродни Siri. 1975 год, кажется; для тех времён что-то невероятное».
Hearsay II могла верно распознать тысячу слов английского языка и почти не делала ошибок.
«Полагаю, человеческий разум – самая интересная вещь на планете», – говорит Том Грубер. Он отправился в Университет Лойола в Новом Орлеане, где занимался изучением психологии, прежде чем обнаружил в себе склонность к компьютерной сфере, которая тогда только начала проникать в научную жизнь. Когда в университете появился синтезатор Муга, Грубер на скорую руку сделал для него компьютерный интерфейс. Также он создал систему машинного обучения, которая используется на факультете психологии Университета Лойола и по сей день. Затем Груберу попалась работа, опубликованная группой учёных из Университета Карнеги-Меллона: той самой, которую возглавлял Радж Редди.
43
В ориг.: Cloud – автор имеет в виду облачное хранение данных. Не путать с iCloud – облачным сервисом Apple. –