Выбрать главу

С помощью фонологии мы начинаем постигать, каким же образом наши дети овладевают азами языка. Этим азам кибернетики пытаются обучить и детище человеческого разума — ЭВМ. Мечта о разговоре человека с роботом насчитывает не одно столетие. Но только в нашем веке она стала на реальную почву…

Прежде всего, ученые решительно отказались от мысли обучать машину пословно, то есть вводить в ее электронную память эталоны звучания отдельных слов. Ведь слов в языке десятки и сотни тысяч. И пропорционально числу этих слов растут трудности, связанные с их распознаванием — легко научить отличать по звучанию два и пять, но не так-то просто различить два и льва или пядь и пять. Память ЭВМ предельно нагружается словами, а на выборку нужного слова из словаря отводится очень мало времени.

Может быть, научить машину распознавать не слова, а фонемы? Но мы-то различаем их по смыслу — бабу от папы, пять от пядь. Машина же смысла не понимает. Кроме того, произношение фонем во многом зависит от возраста, пола, происхождения, образования говорящего. Интуитивно мы делаем поправку на это, мы распознаем фонемы, произносимые с искажениями, так как сравниваем их с эталонами фонем, что хранятся в нашем мозгу. Но ведь электронный мозг машины не имеет подобного рода эталонов!

Наиболее эффективным оказалось решение использовать различительные признаки, ту дюжину языковых универсалий, о которых мы говорили. Плюс еще универсалии, связанные с особенностями произношения людей — речь быстрая, медленная, плавная, резкая и т. д.

Сначала, принимая звуковые волны, то есть человеческую речь, машина делит ее на различительные признаки. Затем она сравнивает их с эталоном целого слова, которое хранится в ее электронной памяти. Но не в виде полной записи слова, а в виде последовательности различительных признаков, кодирующих его.

У современных вычислительных машин есть два вида памяти: оперативная память, небольшого объема, но быстродействующая, и память долговременная, значительно превосходящая первую в объеме и столь же значительно отстающая в скорости. Быстрая оперативная память может быть использована для переработки звуков речи в различительные признаки, а память большого объема — для хранения всего словаря.

Сначала эта модель была предложена из чисто языковедческих соображений. Затем исследования, проведенные в нашей стране под руководством Л. А. Чистович, показали, что распознавание речи человеком также происходит по сходному принципу. Чтобы понимать человеческую речь, машина должна, оказывается, делать это «по-человечески»!

В настоящее время в нашей стране и за рубежом создано немало машин, распознающих человеческую речь. И с каждым годом они совершенствуются. Как пример приведем электронно-вычислительную систему «ТРЕШОЛД-500», созданную в Англии. Практическое применение нашло уже более полутысячи систем «ТРЕШОЛД». Она используется для контроля качества продукции на конвейерах, для управления станками, для сортировки товаров, для опознания личности, для проверки багажа в аэропортах, в системах программированного обучения, для обслуживания парализованных больных в больницах (выключить электроприбор, вызвать врача или медсестру и т. п.)…

Как же распознает речь эта система? Звуки, которые улавливает электронное «ухо» машины, разлагаются на составляющие элементы, преобразуются в двоичный код и поступают в память ЭВМ. Тут они группируются в пять семейств по тридцати двум фонетическим признакам (создатели «ТРЕШОЛДа» ограничились делением на согласные, гласные, короткие паузы, длинные паузы, взрывные звуки). Чтобы машина смогла определить еще и индивидуальные особенности голоса, слова произносятся многократно…

ЭВМ расчленяет длительность произношения слов на шестнадцать равных временных промежутков. Затем выявляет в каждом из них тридцать два фонетических признака. Слово преобразуется в числовой код по этим признакам. Наконец, после многократных повторов одного и того же слова машина выводит «усредненный код», то есть получает характеристики индивидуального голоса, понятные ее электронному мозгу.

Общая емкость словаря системы «ТРЕШОЛД» — до двухсот двадцати слов. Словарь записывается на магнитной ленте, которая хранится в библиотеке словарей системы. Естественно, что словарь составляется для каждого человека и фиксирует особенности голоса с их индивидуальным тембром, окраской и прочими особенностями. Причем машина различает слова, хранящиеся в ее памяти, независимо от того, в каком настроении мы их произнесем— со страхом, радостью, болью и т. д.

У колыбели языка

Конечно, система «ТРЕШОЛД» — явление не уникальное. Например, в университете Карнеги — Меллона, в США, разработана экспериментальная система «захвата речи», которая позволяет распознавать до девяноста пяти процентов фраз. Причем произносит эти фразы не один человек, а пять, три мужчины и две женщины, а словарь содержит более тысячи слов.

Работы по «захвату речи» ведутся в Национальном исследовательском центре дальней связи во Франции, ведут их также советские ученые — в Москве, Ленинграде, Тбилиси, Киеве… Рассказ об этих работах занял бы много времени, к тому же они все-таки относятся более к технике, чем к лингвистике, основной теме нашей книги.

Вам, пожалуй, стала ясна огромная роль фонологии в попытках научить машину говорить «по-человечески». Еще более важную роль может сыграть эта дисциплина в понимании того, каким же образом сигнальная система наших прапрапрапредков, приматов, превратилась в человеческую речь.

Человеческие языки в среднем имеют тридцать-сорок атомов, фонем, из которых строятся молекулы слов. Изучая системы сигнализации наших ближайших родственников по древу жизни — приматов, ученые обнаружили, что число осмысленных сигналов, каждый из которых соотнесен с определенной ситуацией, находится в пределах двадцати-сорока знаков. Столько их у шимпанзе, у прославившихся на весь мир диких обезьян Японии, у других приматов.

Случайно ли это совпадение? По всей вероятности, нет, не случайно. Видимо, и у наших прапрапрапредков первоначально существовала сигнализация, состоящая из нескольких десятков знаков. Анализ черепов питекантропов, обезьянолюдей, пещерных людей, неандертальцев, показывает, что у них не было речи в нашем понимании, то есть человеческой членораздельной речи, представляющей сложную иерархию разных уровней — фонем, морфем, слов, предложений. По всей видимости, у них была примерно такая же примитивная сигнальная система, как и у человекообразных обезьян.

Трудовая деятельность вызвала необходимость в новых словах-сигналах. И не в одном-двух, а десятках, сотнях, тысячах. Остальным приматам достаточно было тридцати-сорока сигналов, чтобы выразить тревогу, удовольствие, призыв и тому подобные примитивные «понятия» и чувства. «Человеку разумному» этого было недостаточно.

Казалось бы, самый простой путь — увеличивать число сигналов-знаков, наращивать словарь. Однако это потребовало бы колоссального объема памяти, причем, если говорить языком кибернетики, памяти оперативной, быстродействующей. А ее объем, как известно, не может быть большим, иначе потеряется быстрота…

И тогда эволюция повела наших предков иным путем — тем самым, что ныне в какой-то мере имитируют современные ученые, когда обучают ЭВМ понимать человеческую речь. Нерасторжимые в прежней системе — в системе сигнализации приматов — сигналы-знаки стали делиться на элементарные различительные признаки. Из них стали формироваться фонемы — уже не простые «знаки ситуации», а единицы языка, служащие для образования единиц более высокого порядка — морфем, слов, а затем и предложений.

Вероятно, в недалеком будущем лингвисты в содружестве е антропологами, психологами, кибернетиками, социологами смогут показать наглядно, в деталях, как происходило превращение сигнальной системы человекообразных обезьян в язык наших предков… Как трудовая деятельность вызвала потребность в новых сигналах… Как вместе с ростом словаря возрастала и емкость памяти… Как трудовые навыки и увеличение объема словаря способствовали эволюции мозга… Как вместе с развитием мозга шло совершенствование речевого аппарата… Как законы языка закреплялись в сознании отдельных членов общества и всего общества…