Проблема создания систем машинного перевода с вьетнамского / на вьетнамский язык

Từ VLOS
Bước tới: chuyển hướng, tìm kiếm

Системы машинного перевода, связанные с вьетнамским языком, возникли в 60-х годах XX века. По данным, с поддержкой военно-воздушных сил США в 1969 году была создана Бернардом Е. Cкотом (Bernard E. Scott) компания Logos с целью продолжить исследование по созданию систем машинного перевода с английского языка на вьетнамский. Е. Cкот начал подготовку к организации системы весной 1965 года в Институте компьютерной технологии. В июне 1970 года была демонстрация системы машинного перевода Logos I, автоматический словарь которой держит свыше тысячи (1734 слов) вьетнамских слов. Вскоре в 1973 году закончилась работа Logos I по разработке систем машинного перевода с английского языка на вьетнамский (Hutchins 1986 : 236-238).

Почти одновременно в начале 70-ых годах прошлого века был проведен другой проект по созданию систем машинного перевода с английского на вьетнамский язык в Информационной Корпорации Xyzyx, Калифорния. Система была сначала создана для англо-французского перевода текстов аэронавтики на IBМ 360, в которой принципы работы были в основном такие, какие были в системе Logos и в версии Systran 70-х годов XX века (Hutchins 1986 : 243).

Машинный перевод с вьетнамского / на вьетнамский язык стал проблемой исследования со стороны вьетнамских специалистов к концу 80-х годов XX века, когда во Вьетнаме начался процесс обновления страны. Исследование по разработке систем машинного перевода было начато с попытки создания электронных словарей. Ныне такие программы, как "Just click and see", "Lac Viet", "Multiditionary" пользуются популярностью среди вьетнамских и иностранных пользователей. В настоящее время создаются первые системы англо-вьетнамского и вьетнамско-английского машинного перевода.

Сегодня существует целый ряд фактов, которые свидетельствуют о необходимости создания систем машинного перевода с русского языка на вьетнамский и с вьетнамского на русский язык: имеется большое количество материалов на русском языке в библиотеках вузов и учреждений Вьетнама; возрастает количество желающих овладеть русским языком среди вьетнамцев; нуждаются специалисты в использовании системы базы данных на машинночитаемых носителях, использующих русский и вьетнамский языки для быстрого получения необходимой информации.

Исходя из задачи разработки специализированных систем машинного перевода с вьетнамского / на вьетнамский язык, рассматривается необходимость исследования особенностей прототипических систем англо-русского и русско-английского машинного перевода (вариант библиотеки прикладных программ Word+, разработанной в лаборатории машинного перевода РГПУ им. А.И.Герцена на базе СИЛОД) и возможностей, определяющих направление и объем модификации прототипических систем. Основные особенности прототипических систем англо-русского и русско-английского машинного перевода состоят в их реализации в виде набора нежестко связанных модулей. Такая модульность позволяет организовать систему машинного перевода в форме совокупности уже готовых модулей и избежать дублирования данных, что делает возможным поэтапное решение проблем анализа и синтеза текста в рамках машинного перевода. Автоматический словарь системы перевода является ее базовой частью, на основе которой реализуется все программное обеспечение лингвистических алгоритмов (Беляева 2003 : 41).

Исследование показывает, что принципы организации прототипических систем англо-русского и русско-английского машинного перевода в основном отвечают требованиям к поставленной задаче о разработке специализированных систем машинного перевода с вьетнамского / на вьетнамский язык, в чем находится предположение о возможностях организации систем машинного перевода для переработки информации в системах с вьетнамским языком. При этом следует учитывать, что:

• Особенности организации систем машинного перевода определяют четыре параметра: 1) стратегия подбора параллельных конструкций (корпусов); 2) стратегия определения и преодоления несоответствий в переводе; 3) стратегия ввода новых слов или словосочетаний; и 4) готовность человека, участвующего в процессе организации систем машинного перевода, к осуществлению проверки результатов работы и пред-, интер-, пост- редактирования.

Стало ясно из эксперимента, что эти параметры всегда говорят о качестве перевода в целом. Например, при подборе вьетнамских эквивалентов требуется соблюдение различных типов порядка слов. Во вьетнамском языке, как аналитическом, грамматические отношения выражаются лексическим путем, путем добавления отдельных слов или словосочетаний (Nguyen Huu Quynh 1994 : 19), без которых семантические значения не могли бы точно и четко выразиться в подобном контексте, что нередко является причиной неточного выбора эквивалентов или неверного описания содержания контекста при переводе (Dao Hong Thu 2004 : 14); встречаются русские несоответствия, которые при работе с автоматическими словарями определяются и преодолеваются путем удаления, дополнения или применения порядка вьетнамских словоформ:

Русское входное предложение Вьетнамское выходное предложение Постредактированный перевод
В отличие от океанической литосферы, вещество которой участвует в конвективном кругообороте, континенты и континентальная литосфера остаются на земной поверхности в течение нескольких миллиардов лет и их вещество не перемешивается в мантии. Khacs vowis thachj quyeenr bieenr la chaats of tham gia trong ddoois luwu dongf luwu thoong, cac lucj ddiaj vaf thachj quyeenr lucj ddiaj conf laij treen beef mawtj trais ddaats trong khoangr mootj vaif tyr nawm vaf chaats cuar chungs is not pha troonj trong mantle. Khacs vowis thachj quyeenr bieenr (обратный порядок слов) la chaats (дополнение слов) tham gia trong ddoois luwu dongf luwu thoong, cac lucj ddiaj vaf thachj quyeenr lucj ddiaj (обратный порядок слов) conf laij treen beef mawtj trais ddaats trong khoangr mootj vaif tyr nawm vaf chaats cuar chungs (обратный порядок слов) khoong bij pha troonj trong mantle.

• Эффективность систем машинного перевода обеспечивается за счет мощных словарных средств и специальных средств редактирования;

• Связь текстов русского и вьетнамского языков может быть установлена только путем последовательных преобразований на различных уровнях репрезентации: лексическом, морфологическом, уровне синтаксических структур и на уровне синтаксического описания;

• В процедурах программы синтаксического анализа (парсинга) реализованы грамматики зависимостей.

Эксперимент по созданию систем машинного перевода с вьетнамского / на вьетнамский язык прежде всего направлен на организацию системы русско-вьетнамского машинного перевода на основе прототипической системы русско-английского машинного перевода. Модификация автоматических словарей и создание новых статьей в системе проводится по следующим принципам:

• Подбор параллельных текстов реализуется в зависимости от требования к определенным отраслям науки и технологии. Дело в том, что цель исследования заключается в удолетворении интересов пользователей систем машинного перевода;

• Предварительный анализ текста начинается с создания картотеки терминов;

• Основой для анализа в системе машинного перевода с русского языка на вьетнамский является текст, разбитый по предложениям, ибо в любой системе машинного перевода выделяется специальный модуль предварительного структурного анализа, который отвечает за разделение текста на предложения (Беляева 2003 : 43). Для русского, английского и вьетнамского языков границей слова является пробел или знаки препинания, не требуя реализации специальных процедур деления текста на слова;

• Создание стаьей автоматических русско-вьетнамских словарей реализуется с соблюдением грамматических и культурнолингвистических особенностей русского и вьетнамского языков.

Так как выходным языком прототипической системы русско-английского машинного перевода является английский, наблюдается необходимость создания программы для трансфера выходного языка во вьетнамский язык перед постредактированием выходного текста машинного перевода. Исследование показывает, что создание такой программы вполне возможно. Таким образом, процесс машинного перевода с русского языка на вьетнамский может быть представлен в виде:

Текст исходного языка (русского)  Ввод исходного текста в ЭВМ  Анализ/Синтез внутреннего текста  Текст выходного языка  Удаление английских словоформ  Текст перевода (вьетнамский язык).

Редактирование текста выполняется человеком-переводчиком вне компьютера или прямо на экране дисплея.

Несморя на все выше представленные возможности прототипической системы русско-английского машинного перевода в разработке специализированной системы русско-вьетнамского машинного перевода, в эксперименте обнаруживаются ограничения, которые лежат в основе лингвистического и программного обеспечения системы. Например:

Входной язык (русский) Выходной язык Правильный перевод
вещество которой участвует chaats of tham gia chaats tham gia
не перемешивается is not pha troonj khoong bij pha troonj
не перемешивается there is not pha troonj khoong bij pha troonj
может значительно меняться cos theer be thay ddooir mootj cachs ddangs keer cos theer thay ddooir mootj cachs ddangs keer
В результате большую часть времени своей эволюции континенты проводят .... To lowns phaanf of thowif gian of the tieens hoas lucj ddiaj trair qua ….. Keets quar laf cacs lucj ddiaj trair qua phaanf lowns thowif gian tieens hoas cuar minhf …
Можно сказать, что It is cos theer nois rawngf Cos theer nois rawngf
Она перемещается Nos is dichj chuyeenr Nos dichj chuyeenr
элементов летучими yeeus toos by bay howi cacs yeeus toos do bay howi
были обобщены had been dduwowcj khais quats ddax dduwowcj khais quats
была опубликована there had been dduwowcj coong boos ddax dduwowcj coong boos
Получены There are nhaanj dduwowcj Nhaanj dduwowcj

Исходя из полученных результатов исследовательского эксперимента можно прийти к выводу, что система русско-вьетнамского машинного перевода, созданная на основе прототипической системы русско-английского машинного перевода, может служить интересам пользователей для ознакомления с содержанием документа на русском и на вьетнамском языках, для более конкретного понимания или изучения текста перевода и для изучения и усвоения неродного языка.

Литература[sửa]

1. Беляева Л.Н.Теория и практика перевода. СПб, 2003.

2. Беляева Л.Н. Лингвистические автоматы в современных информационных технологиях. - СПб, 2001.

3. Зубов А.В., Зубова И.И. Информационные технологии в лингвистике. М., 2004.

4. Дорот В., Новиков Ф. Толковый словарь современной компьютерной лексики. БХВ - Пет., 2001.

5. Лингвистический энциклопедический словарь. Под ред. В.Н.Ярцевой. М., 1990.

6. Марчук Ю.Н. Прикладная лингвистика и компьютер. Реферат. М., 1992.

7. Нелюбин Л.Л. Компьютерная лингвистика и машинный перевод. М., 1991.

8. Беляева Л.Н. Прототипические системы англо-русского и русско-английского машинного перевода (вариант библиотеки прикладных программ Word+, разработанной в лаборатории машинного перевода РГПУ им. А.И.Герцена на базе СИЛОД).

9. Федоров А.В. Основы общей теории перевода. М., 1983.

10. Холзнер С. - Perl : Специальный справочник. СПб: Питер, 2001.

11. Шемакин Ю.И. Начала компьютерной лингвистики. М., 1992.

12. Grover, C., Carroll, J. and Briscoe, T. The Alvey Natural Language Tools Grammar (4-th Release). University of Cambridge, 1993.

13. Hutchins W.J. Machine Translation: past, present, future // Ellis Horwood Series in Computers and their Applications - Wiley, Halsted Press, 1986. - pp.236-238, 243.

14. Dao Hong Thu. Mot so van de cua tieng Viet trong khoa hoc. // Ngon ngu va doi song. Viet Nam, so 11 (109), 2004. - pp. 12-16.

15. Nguyen Huu Quynh. Tieng Viet hien dai. Trung tam bien soan Bach Khoa Viet Nam, 1994.

Bản quyền[sửa]

TS. Đào Hồng Thu

Tuyển tập “Ngôn ngữ ứng dụng trong khoa học và giáo dục”. Hội nghị khoa học quốc tế lần thứ III, tháng 3/2006, St.Peterburg.