Машинный перевод с Вьетнамского языка и на Вьетнамский язык

Từ VLOS
Bước tới: chuyển hướng, tìm kiếm

Tóm tắt[sửa]

В результате первой попытки исследования по разработке специализированных систем машинного перевода с вьетнамского / на вьетнамский язык на основе особенностей прототипических систем англо-русского и русско-английского машинного перевода (вариант библиотеки прикладных программ Word+, разработанной в лаборатории машинного перевода РГПУ им. А.И.Герцена на базе СИЛОД) , а именно системы русско-вьетнамского машинного перевода, выясняется, что принципы организации прототипических систем русско-английского машинного перевода в основном отвечают требованиям к поставленной задаче о разработке специализированных систем машинного перевода на вьетнамский язык, в чем находится предположение о возможностях организации систем машинного перевода для переработки информации в системах с вьетнамским языком.

Nội dung[sửa]

Исходя из того, что вьетнамский и английский языки являются аналитическими и на основе готовых систем русско-английского и англо-русского машинного перевода, продолжается исследование по созданию систем машинного перевода с вьетнамского языка и на вьетнамский язык. Очередным экспериментом по организации систем вьетнамско-английского и англо-вьетнамского машинного перевода является вторая попытка этого исследования. Корпус текстов для эксперимента выбран из двуязычных материалов, главным образом, геологических профилей. На основе русско-английских словарей создается вьетнамско-английский словарь, а на основе англо-русских словарей выполняется англо-вьетнамский словарь для систем машинного перевода с вьетнамского языка и на вьетнамский язык.

При этом, как и при первом эксперименте, следует учитывать, что особенности организации систем машинного перевода определяют четыре параметра:

1) стратегия подбора параллельных конструкций (корпусов);

2) стратегия определения и преодоления несоответствий в переводе;

3) стратегия ввода новых слов или словосочетаний;

4) готовность человека, участвующего в процессе организации систем машинного перевода;

Из эксперимента ясно, что эти параметры всегда говорят о качестве перевода в целом. Например, явившись аналитическими по языковым особенностям, но разлиными по типологии, при подборе вьетнамских эквивалентов требуется соблюдение различных типов порядка слов. Во вьетнамском языке, как аналитическом и изолирующем, грамматические отношения выражаются лексическим путем, путем добавления отдельных слов или словосочетаний , без которых семантические значения не могли бы точно и четко выразиться в подобном контексте, что нередко является причиной неточного выбора эквивалентов или неверного описания содержания контекста при переводе . Нередко встречаются английские несоответствия, которые определяются и преодолеваются путем удаления, дополнения или применения порядка вьетнамских словоформ. Например:

Входное предложение Выходное предложение
The accommodation space not filled with water is filled with sediment. Khoong gian chuwas (обратный порядок слов) neeus khoong dduwowcj (дополнение слов) laaps ddaayf bawngf nuwowcs thif (дополнение слов) dduwowcj laaps ddaayf bawngf vaatj lieeuj traamf tichs.

После ввода обработанных автоматических словарей в систему машинного перевода видно, что перевести с вьетнамского языка на английский невозможно. Например:

Входной язык (вьетн.-telex) Выходной язык (вьетн.-telex)
Trair qua thowif gian raats daif (105 - 108 nawm), quas trinhf tawng truwowngr traamf tichs phuj thuoocj chur yeeus vaof cacs yeeus toos nhuw thay ddooir muwcj nuwowcs bieenr ddaij duwowng, chuyeenr ddoongj kieens taoj vaf anhr huwowngr cuar quas trinhf ngoaij sinh leen vaatj lieeuj traamf tichs. Trair qua thowif gian raats daif (105 - 108 nawm), quas trinhf tawng truwowngr traamf tichs phuj thuoocj chur yeeus vaof cacs yeeus toos nhuw thay ddooir muwcj nuwowcs bieenr ddaij duwowng, chuyeenr ddoongj kieens taoj vaf anhr huwowngr cuar quas trinhf ngoaij sinh leen vaatj lieeuj traamf tichs.

Из примера стало ясно, что выходной язык после машинного перевода остается вьетнамским. Это объясняется тем, что основа (программа для русских корпусов) в системе русско-английского машинного перевода не отвечает нормам грамматики вьетнамского языка. Для переработки русско-английских словарей во вьетнамско-английские требуется обработка грамматического обеспечения самой системы.

Эксперимент также показывает, что после снятия англо-русских словарей и ввода англо-вьетнамского словаря система машинного перевода может перевести тексты с английского языка на вьетнамский. Например:

Входное предложение (англ.) Выходное предложение (вьетн.-telex)
In addition, the lithosphere can also move up or down relative to the center of the earth. Mowr roongj hown, thachj quyeenr cungx cos theer cao hown hoawcj thaaps hown so vowis taam Trais ddaats.

Результаты исследования показывает, что эффективность системы машинного перевода обеспечивается за счет мощных словарных средств и специальных средств редактирования; связь текстов на английском и на вьетнамском языках может быть установлена только путем последовательных преобразований на различных уровнях репрезентации: лексическом, морфологическом, уровне синтаксических структур и на уровне синтаксического описания; в процедурах программы синтаксического анализа (парсинга) реализованы грамматики зависимостей.

Модификация автоматических словарей и создание новых статьей в системе проводится по следующим принципам:

• Подбор параллельных текстов реализуется в зависимости от требования к определенным отраслям науки и технологии;

• Предварительный анализ текста начинается с создания картотеки терминов;

• Основой для анализа в системе машинного перевода с английского языка на вьетнамский является текст, разбитый по предложениям, ибо в любой системе машинного перевода выделяется специальный модуль предварительного структурного анализа, который отвечает за разделение текста на предложения . Для русского, английского и вьетнамского языков границей слова является пробел или знаки препинания, не требуя реализации специальных процедур деления текста на слова;

• Создание стаьей автоматических англо-вьетнамских словарей реализуется с соблюдением грамматических и культурнолингвистических особенностей английского и вьетнамского языков. Так как в прототипической системе англо-русского машинного перевода нет кодировочной программы для вьетнамского языка, наблюдается необходимость создания программы для трансфера выходного языка во вьетнамский язык перед редактирования выходного текста машинного перевода. Исследование показывает, что создание такой программы вполне возможно. Таким образом, процесс машинного перевода с английского языка на вьетнамский может быть представлен в виде:

Текст исходного языка (английского)  Ввод исходного текста в ЭВМ  Анализ/Синтез внутреннего текста  Текст выходного языка (вьетнамский язык в форме telex)  Текст перевода (вьетнамский язык).

Редактирование текста выполняется человеком-переводчиком вне компьютера или прямо на экране дисплея.

Несморя на все выше представленные возможности прототипической системы англо-русского машинного перевода в разработке специализированной системы англо-вьетнамского машинного перевода, в эксперименте обнаруживаются ограничения, которые лежат в основе лингвистического и программного обеспечения системы. Например:

Входной язык (английский) Выходной язык Правильный перевод
factors that reflect filling of accommodation space thanhf toos laaps ddaayf khoong gian chuwas u thanhf toos laaps ddaayf khoong gian chuwas
immediately underneath ngay laapj tuwcs g duwowis g ngay laapj tuwcs duwowis

Опираясь на все полученные результаты вышепоказанных исследовательских экспериментов, можно прийти к выводу, что:

1. На основе систем русско-английского машинного перевода возможно создание русско-вьетнамского машинного перевода;

2. На основе систем англо-русского машинного перевода возможно создание англо-вьетнамского машинного перевода;

3. В основе систем англо-русского машинного перевода находится предположение о возможностях организации систем вьетнамско-русского и вьетнамско-английского машинного перевода.

4. Результаты переработки систем машинного перевода могут быть предназначены для трех целей: а) для ознакомления с содержанием документа на незнакомом языке; б) для более конкретного понимания или изучения текста перевода; и в) для изучения и усвоения какого-либо иностранного языка.


Bản quyền[sửa]

TS. Đào Hồng Thu

Kỉ yếu hội nghị quốc tế lần thứ III “Corpus Linguistics - 2006”, tháng 10/2006. St.Peterburg.