Выбрать главу

Не исключено, что другие, более совершенные системы смогут провести более тонкий синтактико-семантический анализ и отбросить некоторые неподходящие эквивален­ты. Не это важно.

Важно здесь то, что выполнить качественный перевод без использования фоновых знаний невозможно, а систе­мы второго уровня фоновую информацию использовать не могут.

Системы третьего, высшего уровня можно сравнить с переводчиком-профессионалом, знающим тематику переводимого текста.

Системы третьего уровня используют модели синтакси­ческого и семантического анализа и синтеза, а также (что их и отличает) концептуальные модели окружающего ми­ра. К сожалению, как уже говорилось, они существуют лишь на стадии эксперимента.

Таким образом, рынок коммерческих программных продуктов для автоматического перевода предлагает пока что лишь системы второго уровня. Давайте рас­смотрим более подробно, как они работают и как их мо­жет применить в своей работе переводчик.

Очевидно, что основой любой системы машинного пе­ревода является автоматический словарь, и коммерческие системы второго уровня не являются исключением.

Как правило, все эти системы снабжены большими сло­варями, а в некоторых из них имеется очень важная, на мой взгляд, функция пополнения словарей новой лекси­кой.

Автоматический словарь системы машинного перевода - это программный модуль, который выполняет следую­щие функции:

а) распознает во входном тексте символьные цепочки слов и словосочетаний, например, символьная строка пред­ложения LEAD*ABSORBS*RADIATION.(* - пробел) бу­дет разделена на цепочки словоформ LEAD, ABSORBS и RADIATION;

6) преобразует текстовые словоформы в словарный вид, например, словоформу ABSORBS в вид ABSORB;

в) по графемному составу слова регистрирует грамматиче­скую информацию о слове, например, флексию S в слове ABSORBS, которая может быть признаком третьего лица глагола или множественного числа существительного, или суффикс -TION в слове RADIATION, который мо­жет служить формальным признаком отглагольного существительного;

г) регистрирует информацию, имеющуюся в словарном файле для данного слова, - переводные эквиваленты, грамматические и семантические признаки исходного

слова и его переводного эквивалента, например, для слова RADIATION эти данные могут выглядеть таким образом: RADIATION; (N); (process; characteristics) = РАДИАЦИЯ, (N); (процесс, характеристика); ИЗЛУЧЕ­НИЕ, (N); (процесс, характеристика);

д) формирует синтаксическое и семантическое представ­ление входного текста (как правило, предложения), на­пример, для предложения LEAD ABSORBS RADIATION такое синтактико-семантическое представление может иметь вид:

(lead)=V(TRANS/OBJ=Nanim,inanim)/N (MATER/ ABSTR); (absorbs) =V(TRANS,SUBJ=Ninanim, mater; OBJ=Ninanim, mater);

(radiation)=N(PROC/PARAM).

Здесь нужно сделать оговорку. Я думаю, достаточно очевидно, что приведенная в примерах информация по синтаксическим и семантическим моделям носит иллюст­ративный характер и ни в коей мере не претендует на пол­ноту или универсальность. То же можно сказать и о тех примерах, которыми будет иллюстрироваться работа дру­гих модулей системы автоматического перевода.

В каждой конкретной системе данные и процедуры их обработки имеют свою специфику. Зачастую такая ин­формация даже носит конфиденциальный характер.

Моя же задача состоит лишь в том, чтобы показать на примерах основные функции программного модуля авто­матического словаря и других типовых модулей перево­дящего автомата. Но вернемся к описанию функций.

Выходные данные модуля автоматического словаря, т.е. синтаксическое и семантическое представление исходного текста и семантико-синтаксическая информация о пере­водных эквивалентах поступают на вход второго этапа об­работки, т.е. на вход модуля преобразования синтактико-семантического представления входного текста в синтак­тико-семантическое представление выходного. Это преоб­разование в специальной литературе носит заимствован­ное название "трансфер".

В процессе трансфера:

1. Производится анализ синтаксиса и семантики вход­ного текста и уточняется его структура. При этом структу­ра предложения выражается в форматах так называемой машинной грамматики, т.е. в виде формального описания синтаксических (и, как правило, семантических) элементов предложения и отношений между ними.

Сейчас чаще всего используют грамматику зависимо­стей или непосредственно составляющих в форматах "уни-фикационной грамматики {unification grammar)"37.