Профессия: переводчик
Шрифт:
Важно здесь то, что выполнить качественный перевод без использования фоновых знаний невозможно, а системы второго уровня фоновую информацию использовать не могут.
Системы третьего, высшего уровня можно сравнить с переводчиком-профессионалом, знающим тематику переводимого текста.
Системы третьего уровня используют модели синтаксического и семантического анализа и синтеза, а также (что их и отличает) концептуальные модели окружающего мира. К сожалению, как уже говорилось, они существуют
Таким образом, рынок коммерческих программных продуктов для автоматического перевода предлагает пока что лишь системы второго уровня. Давайте рассмотрим более подробно, как они работают и как их может применить в своей работе переводчик.
Очевидно, что основой любой системы машинного перевода является автоматический словарь, и коммерческие системы второго уровня не являются исключением.
Как правило, все эти системы снабжены большими словарями, а в некоторых из них имеется очень важная, на мой взгляд, функция пополнения словарей новой лексикой.
Автоматический словарь системы машинного перевода - это программный модуль, который выполняет следующие функции:
а) распознает во входном тексте символьные цепочки слов и словосочетаний, например, символьная строка предложения LEAD*ABSORBS*RADIATION.(* - пробел) будет разделена на цепочки словоформ LEAD, ABSORBS и RADIATION;
6) преобразует текстовые словоформы в словарный вид, например, словоформу ABSORBS в вид ABSORB;
в) по графемному составу слова регистрирует грамматическую информацию о слове, например, флексию S в слове ABSORBS, которая может быть признаком третьего лица глагола или множественного числа существительного, или суффикс -TION в слове RADIATION, который может служить формальным признаком отглагольного существительного;
г) регистрирует информацию, имеющуюся в словарном файле для данного слова, - переводные эквиваленты, грамматические и семантические признаки исходного
слова и его переводного эквивалента, например, для слова RADIATION эти данные могут выглядеть таким образом: RADIATION; (N); (process; characteristics) = РАДИАЦИЯ, (N); (процесс, характеристика); ИЗЛУЧЕНИЕ, (N); (процесс, характеристика);
д) формирует синтаксическое и семантическое представление входного текста (как правило, предложения), например, для предложения LEAD ABSORBS RADIATION такое синтактико-семантическое представление может иметь вид:
(lead)=V(TRANS/OBJ=Nanim,inanim)/N (MATER/ ABSTR); (absorbs) =V(TRANS,SUBJ=Ninanim, mater; OBJ=Ninanim, mater);
(radiation)=N(PROC/PARAM).
Здесь нужно сделать оговорку. Я думаю, достаточно очевидно, что приведенная в примерах информация по синтаксическим и семантическим моделям носит иллюстративный характер и ни в коей мере не претендует на полноту или универсальность. То же можно сказать и о тех примерах, которыми будет иллюстрироваться работа других модулей системы автоматического перевода.
В каждой конкретной системе данные и процедуры их обработки имеют свою специфику. Зачастую такая информация даже носит конфиденциальный характер.
Моя же задача состоит лишь в том, чтобы показать на примерах основные функции программного модуля автоматического словаря и других типовых модулей переводящего автомата. Но вернемся к описанию функций.
Выходные данные модуля автоматического словаря, т.е. синтаксическое и семантическое представление исходного текста и семантико-синтаксическая информация о переводных эквивалентах поступают на вход второго этапа обработки, т.е. на вход модуля преобразования синтактико-семантического представления входного текста в синтактико-семантическое представление выходного. Это преобразование в специальной литературе носит заимствованное название "трансфер".
В процессе трансфера:
1. Производится анализ синтаксиса и семантики входного текста и уточняется его структура. При этом структура предложения выражается в форматах так называемой машинной грамматики, т.е. в виде формального описания синтаксических (и, как правило, семантических) элементов предложения и отношений между ними.
Сейчас чаще всего используют грамматику зависимостей или непосредственно составляющих в форматах "уни-фикационной грамматики {unification grammar)"37.
Так, например, в результате обработки на этапе анализа уточненная синтактико-семантическая структура того же английского предложения может иметь вид:
N(MATER/ABSTR)(SUBJECT)<=(PREDICATE) V(TRANS,SUBJ=Ninanim, mater; OBJ=Ninanim, mater)=> (OBJECT)N(PROQPARAM).
2. Преобразование структуры входного предложения в промежуточную (ядерную) структуру по правилам машинной грамматики. Например, по правилам грамматики непосредственно составляющих такое преобразование будет иметь вид:
NVN=>NV=>V.
3. Синтез синтаксической структуры выходного предложения. Для нашего простого примера она может быть двоякой:
– для предложения с глаголом-сказуемым в действительном залоге:
Nl(nomin) V(active) N2(accus.);
– для предложения с глаголом-сказуемым в страдательном залоге:
N2(nomin) V(passive) Nl (instr.).
После этапа трансфера следует этап лексического синтеза элементов выходного предложения, т.е. выбор эквивалентов по синтаксическим и семантическим признакам.
За лексическим синтезом следует графемный синтез (преобразование словарных форм переводных эквивалентов в соответствующие текстовые формы - в нужном падеже, лице, числе и т.д.). В результате выходное предложение принимает вид:
свинец (лот / грузило / проводник) всасывает (впитывает / абсорбирует / амортизирует / поглощает) излучение (радиацию) или
излучение (радиация) впитывается (абсорбируется / амортизируется / поглощается) свинцом (лотом / грузилом / проводником).
Так в общих чертах работает переводящий автомат второго уровня, построенный по схеме синтактико-семан-тического трансфера. Такой автомат строится для определенной пары языков и, как вы сами можете судить, использует алгоритмические процедуры анализа и синтеза на основе синтаксической и семантической информации.