К вопросу о создании систем машинного перевода с вьетнамского / на вьетнамский язык

Từ VLOS
Bước tới: chuyển hướng, tìm kiếm

Резюме[sửa]

Машинный перевод в настоящее время рассматривается как ключевая проблема в вопросах экономического и социального продвижения государств в эпохе информационной интеркоммуникации, несмотря на то, что до сих пор остаются немалые ограничения в возможностях использования систем машинного перевода.

В данной статье рассматривается проблема создания систем машинного перевода с вьетнамского /на вьетнамский язык, которая вызывает глубокую необходимость для поиска интересных для вьетнамских людей видов информации на разных языках, а именно проблема организации систем машинного перевода с русского языка на вьетнамский и обратно.

Abstract[sửa]

Machine translation is nowadays considered as a key problem of issues of economic and social promotion for the countries during rapid development of information intercommunication although until now there are considerable restrictions in opportunities of using machine translation systems.

This paper is aimed to take up the problem of creation of machine translation systems from / to Vietnamese which causes deep necessity for searching interesting for Vietnamese people kinds of the information in different languages, namely a problem of the organization of machine translation systems from/to Russian to/from Vietnamese.


Введение[sửa]

Прошло уже более чем половина века со дня формирования машинного перевода как самостоятельного научного направления. За всю свою историю существования машинный перевод переживал и подъемы, и спады. Несмотря на то, что до сих пор остаются немалые ограничения в возможностях систем машинного перевода, вопрос разработки систем машинных переводов привлекает все больше внимания исследователей. Системы машинного перевода последовательно развивались от простейших программ, использовавших ограниченные ресурсы компьютеров, до современных систем в помощь переводчику, использующих мощные ресурсы современных компьютеров. Громадное увеличение потока информации в ходе сегодняшней регионизации и глобализации требует автоматического решения определенных задач в разных сферах человеческой деятельности. Машинный перевод ныне рассматривается как ключевая проблема в вопросах экономического и социального продвижения государств в процессе бурного развития информационной интеркоммуникации.

В данной статье рассматривается проблема создания систем машинного перевода с вьетнамского / на вьетнамский язык, которая вызывает глубокую необходимость для поиска информаций на разных языках в различных областях жизненной деятельности вьетнамских людей, а именно проблема организации систем машинного перевода с русского языка на вьетнамский и обратно.

Необходимость создания систем машинного перевода с вьетнамского / на вьетнамский язык[sửa]

Началом исследования проблемы машинного перевода с и на вьетнамский язык могут считаться 60-е годы XX века. По данным, с поддержкой аегофлотских сил США в 1969 году была создана Бернардом Е. Шкотом (Bernard E. Scott) компания Logos с целью продолжить исследование организации системы машинного перевода с английского языка на вьетнамский. Шкот начал подготовку к организации системы весной 1965 года в Институте компьютерной технологии. В июне 1970 года была демонстрация системы машинного перевода Logos I, автоматический словарь которой держит только больше тысячи вьетнамских слов. Вскоре в 1973 году система Logos I кончила дело с машинным переводом с английского языка на вьетнамский.

Почти одновременно в начале 70-ых годах прошлого века был проведен другой проект по созданию систем машинного перевода с английского на вьетнамский язык в Информационной Корпорации Xyzyx, Калифорния. Система была сначала создана для англо-французского перевода текстов аэронавтики на IBМ 360, в которой принципы работы были в основном такие, какие были в системе Logos и в версии Systran 70-х годов XX века.

Машинный перевод с вьетнамского / на вьетнамский язык снова стал проблемой исследования к концу 80-х годов XX века, когда во Вьетнаме осуществлялся процесс обновления страны. В последние годы включение иностранных языков в один ряд с научно – технологическими науками во Вьетнаме весьма знаменательно. Оно указывает на другой важный аспект знания иностранных языков, а именно на их роль в народном хозяйстве, особенно в настоящее время, когда научная коммуникация развивается в мировом масштабе. Для изучения иностранных языков в стране создавались и создаются различные электронные словари.

Теоретически корпусная лингвистика до сих пор не используется вниманием во вьетнамской лингвистике, хотя включение иностранных языков в один ряд с научно – технологическими науками во Вьетнаме весьма знаменательно. Практически, столкновение с огромным количеством информации во всех сферах общественной деятельности и распространение компьютерных технологий в последние годы приводят к подготовке различных видов электронных словарей , к изданию огромного количества книг с параллельными текстами на иностранных, в основном на английском, и вьетнамском языках. Быстрое чтение научной литературы на иностранных языках требует наличия машинного перевода. С начала XXI века отдельные группы вьетнамских специалистов - математиков и программистов начали исследование по организации системы машинного перевода с английского языка на вьетнамский и обратно. Пока лингвисты еще не совсем готовы к работе по машинному переводу, идея подготовки систем заключается в том, что от лингвиста требуется описание фактов языка, а алгоритмы перевода составят программисты. Однако практика показывает, что программы для организации систем машинного перевода с вьетнамского / на вьетнамский язык все еще не разработаны.

Машинный перевод представляет собой особый вид в переводческой деятельности человека-переводчика. Вместе с тем, он является и особым средством для межъязыковой коммуникации. Машинный перевод необходим для снабжения современной экономической и социальной информацией, которая нужна не только учреждениям всех государств всего мира, но и людям и специалистам различных областей науки и техники во всем мире. Вьетнам как развивающаяся страна нуждается в использовании машинного перевода для своего развития. Для Вьетнама большое внимание уделяется научно-техническому переводу, который является важным средством передачи новых научных и технологических знаний человечества. Потребность в использовании машинного перевода вызывает ряд естественных причин. Во-первых, в настоящее время во Вьетнаме имеется большой спрос на быстрое чтение для получения новой, интересной читателям информации. Во-вторых, во всех вузах и учреждениях Вьетнама строго требуется усвоение английского языка как необходимого средства для межъязыковой коммуникации. В-третьих, возрастает среди вьетнамских специалистов потребность в усвоении и использовании русского языка, а также других языков, таких как французский, японский, немецкий, китайский языки и т.п.

Во Вьетнаме сейчас широко распространен интернет и наблюдается необходимость создания систем машинного перевода с вьетнамского / на вьетнамский язык в связи с развитием сети. Вьетнамские люди, особенно специалисты различных областей науки и технологии, стали интересоваться тем, чем интересуются миллионы людей, говорящих на разных языках и находящихся в едином информационном пространстве в масштабе всего мира. В результате возникают требования к использованию машинного перевода с вьетнамского / на вьетнамский язык как средства общения. Дело в том, что хотя в сети доминирует английский язык, но есть пользователи, которые им не владеют, и есть множество Web­страниц, написанных не по-английски.

Стало ясно, что в будущем и автоматический перевод, помимо машинный, не сможет полностью заменить переводчика-человека. Однако с помощью программ, устроенных в системах машинного перевода, можно существенно повысить эффективность труда переводчика-человека и квалификацию профессиональных специалистов. Машинный перевод достигает в настоящее время такой степени своего развития, что перевод текстов может реализоваться непосредственно в сети. В списке языков, на которые возможен перевод в Internet, вьетнамского нет. Для существования в "глобальном доме земного шара" с другими, в том числе и с могущими членами этого "глобального дома", необходим для Вьетнама широкий круг обмена информацией, при котором речь может идти только о помощи машинного перевода, особенно в настоящее время когда бурно развивается различного вида информационная технология. Учитывая, что множество людей во Вьетнаме сейчас более или менее сносно владеет английским как наиболее широко используемым языком в мире и русским в результате многолетнего обучения в СССР и России, стало выгодно начать проблему организации систем машинного перевода с вьетнамского / на вьетнамский язык именно с этих языков.

Проф. Л.Н.Беляева точно утверждает, что в настоящее время, когда бурно развиваются отрасли науки и техники и появляется необходимость общаться на уровне межъязыковой коммуникации мирового масштаба для информационного обмена в этих сферах, “профессиональный переводчик должен знать массу специальной терминологии и помнить точные названия огромного количества разнообразной номенклатуры деталей, составных частей, приборов, механизмов, веществ, реактивов …. ”. И мы хорошо знаем, что не всегда по силе даже высококвалифицированному переводчику знать все термины и терминологические обороты, которые существуют и вновь возникают в научной и технологической литературе. Именно в этом выражена главнейшая цель нашего исследования - создать системы машинного перевода с вьетнамского / на вьетнамский язык в помощь тем, кому нужен перевод для быстрого получения информации.

На практике не существует еще доказательства о возможности создания полностью автоматизированных систем, обеспечивающих высококачественный перевод, не требующий дальнейшего постредактирования. Поэтому, при создании практической системы машинного перевода следует учитывать реальные потребности пользователей систем и возможности моделирования речемыслительного процесса.

В настоящее время для Вьетнама особенно необходимо создать системы машинного перевода с русского языка на вьетнамский и обратно в результате того, что до сих пор все же имеется большое количество материалов на русском языке в библиотеках вузов и учреждений Вьетнама; нуждается большая часть спецалистов в быстром переводе специальных материалов с русского языка на вьетнамский и обратно. Более того, сегодня во Вьетнаме все больше растет количество желающих овладеть русским языком для снятия языкового барьера в использовании систем базы данных на машинночитаемых носителях, использующих русский язык.

Возможности использования систем машинного перевода для переработки информации в системах с вьетнамским языком и создания систем машинного перевода с вьетнамского / на вьетнамский язык[sửa]

Попытки провести эксприментальное исследование по машинному переводу с вьетнамского / на вьетнамский язык на основе систем СИЛОД показывают, что действительно существуют возможности использования систем машинного перевода для переработки информации в системах с вьетнамским языком. Под руководством проф. Л.Н.Беляевой нам удалось выяснить некоторые основные возможности и ограничения систем машинного перевода, а также основные приемы на возможное преодоление этих ограничений.

Согласно исследованию, при котором ставится задача разработать принципы организации систем машинного перевода с вьетнамского / на вьетнамский, следует уделять особое внимание характерным чертам создания и функционирования практических систем машинного перевода при их создании, а именно:

• Особенности подготовки к организации систем машинного перевода определяют три параметра :

1) стратегия подбора параллельных корпусов для создания автоматических словарей;

2) степень определения несоответствующих вариантов перевода при создании словарных статей; и

3) готовность человека, участвующего в процессе организации систем машинного перевода, к осуществлению проверки результатов работы и пред-, интер-, пост- редактирования;

• Эффективность систем машинного перевода обеспечивается за счет мощных словарных средств и специальных средств редактирования;

• Прямое бинарное сопоставление, осуществляемое на основе отдельных лексико - морфологических и семантико - синтаксических подструктур, жестко ориентирует лингвистическое и программное обеспечение системы не только на особенности конкретной пары языков, но и на специфику подъязыков. Замена одного из членов такой пары немедленно требует перестройки лингвистического, а иногда и программного обеспечения;

• Связь текстов иностранного и вьетнамского языков может быть установлена только путем последовательных преобразований на различных уровнях репрезентации : лексическом, морфологическом, уровне синтаксических структур и на уровне синтаксического описания;

• В процедурах программы синтаксического анализа (парсинга) реализованы грамматики зависимостей.

Исходя из предположений о возможностях использования систем машинного перевода для переработки информации в системах с вьетнамским языком, проводятся эксперименты при исследовании по организации систем машинного перевода с вьетнамского / на вьетнамский язык по следующим принципам:

• Подбор параллельных текстов реализуется в зависимости от требования к определенным отраслям науки и технологии;

• Создание статьей автоматического русско-вьетнамского словаря реализуется на основе систем машинного перевода СИЛОД с русского языка на английский. Поскольку в английском языке в основном имеются особенности аналитического характера, что есть и во вьетнамском, нам удалось выйти на статус составления автоматического русско-вьетнамского словаря главным образом как такового.

• Предварительный анализ текста начинается с создания ручной картотеки. Задачей этого уровня автоматического предредактирования является предварительная разметка текста, в процессе которой определяются границы его отдельных разделов (частей, глав, параграфов, абзацев, предложений), границы заголовков, оглавления, рисунков, таблиц и формул. Результаты, получаемые на уровне автоматического предредактирования, зависят от того, насколько четко можно определить необходимые параллельные корпуса, насколько корректно их выделение в тексте;

• Так как в любой системе машинного перевода выделяется специальный модуль предварительного структурного анализа, который отвечает за разделение текста на предложения , основой для дальнейшего анализа в систем машинного перевода с вьетнамского / на вьетнамский язык является текст, разбитый по предложениям. Для русского, английского и вьетнамского языков границей слова является пробел. Автоматическая обработка в дальнейшем анализе текстов основывается в режиме систем машинного перевода СИЛОД с русского языка на английский.

• Так как выходным языком систем машинного перевода, используемых нами, является английский, необходимо создать программу для трансфера выходного языка во вьетнамский перед редактирования выходного текста машинного перевода. В процессе исследования обнаруживается, что имеется возможность создания программы для трансфера выходного языка во вьетнамский язык в системах машинного перевода с русского языка на английский.

При переводе на системах машинного перевода обычно используется пред-, интер- и пост- редактирование переводного текста. Как видно из практических исследований, системы машинного перевода с русского языка на вьетнамский реализуются общими признаками по аналогии со схемой перевода, осуществляемого человеком - переводчиком в виде:

Текст исходного языка (русского)  ввод исходного текста в ЭВМ  анализ/синтез внутреннего текста  текст выходного языка  текст на вьетнамском языке (редактирование текста выполняется человеком - переводчиком вне компьютера или прямо на экране дисплея).

Возможности использования систем машинного перевода для переработки информации в системах с вьетнамским языком и создания систем машинного перевода с вьетнамского / на вьетнамский отвечают в настоящее время потребность у вьетнамцев в использовании машинного перевода, результаты которого могут быть предназначены в основном для трех целей: 1) для ознакомления с содержанием документа на незнакомом языке; 2) для более конкретного понимания или изучения текста перевода; и 3) для изучения и усвоения какого-либо иностранного языка.

Основные особенности подбора параллельных корпусов русского и вьетнамского языков[sửa]

Машинный перевод требует моделирования перевода в виде соответствий, сущность которых является единством в рамках двух или более естественных языков и может затрагивать разные языковые уровни. В результате исследования по организации систем машинного перевода с русского языка на вьетнамский и обратно стало видно, что можно выделить четыре вида моделей параллельных корпусов, которые должны обеспечить передачу содержания текста на одном языке в содержание текста на другом языке так, чтобы при этом была передана информация оригинала и сохранился смысловой инвариант. В состав таких моделей включаются:

• эквиваленты абсолютного тождества по значению переводного контекста;

• вариантные и контекстуальные корпуса;

• соответственные элементы по культуролингвистическим нормам языка перевода ;

• трансформационные корпуса.

Основная трудность при машинном переводе видится именно в подборе параллельных корпусов языка перевода, в процессе которого решающую роль играет человек-переводчик. Машинный перевод в настоящее время реализуется с активным участием человека, который играет в процессе перевода роль пре-, интер- и пост- редактора и имеет тесную связь с компьютером. Исследование показывает, что при подборе параллельных корпусов русского и вьетнамского языков необходимо учесть:

• все отличительные характеристики между двумя языками;

• все несоответствующие элементы, связанные с культуролингвистическими особенностями в обоих языках;

• все непереводимые элементы в русском, а также во вьетнамском языке. Синтаксически вьетнамский язык отличается от русского строгим порядком слов, дополнением отдельных слов в предложении для семантических обозначений и использованием различных видов интонаций, принимающих участие в переводе языков. В отличии от русского языка, который является в типологическом отношении флективным, вьетнамский язык оценивается как изолирующий . Понятие изоляции здесь представляет собой синтаксическую характеристику языковых конструкций, а именно проявление того факта, что внутри самого предложения языка между словами не выражено синтаксического отношения. Иными словами, вьетнамский язык относится к группам аморфных языков, в которых для обозначения грамматических связей слова не изменяют свои формы, а соединяются путем примыкания между собой, учитывая различные оттенки лексических значений отдельного из них слов, или путем добавления служебных слов. В отличие от вьетнамского языка в русском для обозначения грамматических связей слова изменяют свои формы с помощью свойственных им граммстических категорий: падежа, числа, времени и т.п. Таким образом, слово и словосочетание в русском языке могут имееть синтаксические значения , что нехарактерно для вьетнамского языка. Например:

1. направление колебаний электрического вектора у необыкновенного луча (N-N-Adj-N-Prep-Adj-N)

2. нарушение законов преломления в необыкновенном луче (N-N-N-Prep-Adj-N)

Эти конструкции на вьетнамский язык переводятся следующим образом:

1. phương dao động của véc tơ điện trường của tia sáng bất thường (N-N-Prep-N-Adj-Prep-N-Adj)

2. không tuân theo định luật khúc xạ tia sáng bất thường (N-N-N-Prep-N-Adj)

Различия по определению порядка слов и по снятию значению этих конструкций выражаются в следующем.

Русский язык Вьетнамский язык (правильный перевод) Русский язык (обратный перевод)
электрического вектора véc tơ điện trường вектора электрического
необыкновенного луча tia sáng bất thường луча необыкновенного
необыкновенном луче tia sáng bất thường луче необыкновенном
у của
в не переводится

Такой подбор объясняется тем, что русский язык носит синтетический характер , а вьетнамский язык – аналитический . Грамматические отношения предложения в русском языке выражаются “в пределах словоформы” . Это, как правило, определяется свойственными характеристиками самого слова, такие как аффриксацией, внутренней флексией, ударением и т.п. Грамматические отношения вьетнамского языка, иным образом, определяются с помощью порядка слов или вспомогательно значимых единиц.

Из выше сказанного стало ясно, что при подборе вьетнамских эквивалентов требуется тщательное соблюдение типов порядка слов. Вьетнамский язык, относясь к группам аналитических языков, имеет строго построенный порядок слов. Во вьетнамском языке, как в аналитическом, грамматические отношения выражаются лексическим путем, путем добавления отдельных слов или словосочетаний, без которых семантические значения не могли бы точно и четко выразиться в подобном контексте, что нередко является причиной неточного выбора эквивалентов или неверного описания содержания контекста при переводе. Непараллельными вьетнамскими конструкциями по отношению с русскими, главным образом, являются:

• N - Adj. : văn bản khoa học (текст научный)

• N - Adj. - Pron. : công trình mới này (новая работа эта)

• N - Prep. - N - Adj. : dao động của véc tơ điện trường (колебание вектора электрического)

• Pron. - Num. - N - Pron. : tất cả ba cuốn sách này (все три книги эти)

• N - N - Prep. - N - V : Tivi Sony do Nhật Bản sản xuất (телевизор Sony в результате Япония производится)

Заключение[sửa]

Машинный перевод сегодня стал одним из популярных видов деятельности человека. Несмотря на ограничения качества выходного текста, машинный перевод действительно облегчает и ускоряет традиционный процесс перевода. В XXI веке - век науки и информатики - машинный перевод становится особым и эффективным средством для межъязыковой коммуникации во всех областях современной науки и техники. Информационные технологии создали для машинного перевода новую культуру - лингвоавтоматическую, которая пришла на смену старой культуре - лингвомеханической, в результате чего процесс перевода значительно ускорился. Достижением новой культуры являются средства перевода - программы и инструменты перевода - словари, базы данных, глоссарии, которые входят в систему автоматического перевода. Появление машинного перевода можно и нужно считать активным помощником, а не конкурентом в переводческой деятельности.

В настоящее время имеется широкий выбор па¬кетов программ, интересующих вьетнамских исследователей к изучению проблемы машинного перевода, которые осуществляются под двумя видами : 1) машинные переводчики и 2) системы ма¬шинного перевода. Под машинным переводчиком понимается электронный словарь или электронный словарь - разговорник, который представляет соответствия языка перевода в виде слов или словосочетаний или отдельных предложений. В этом случае машинный перевод играет лишь вспомогательную роль для быстрого и точного нахождения нужных эквивалентов в переводческой деятельности человека-переводчика. Роль редактора человека здесь не видна. Под системой машинного перевода текстов понимается часть автоматизированного рабочего места переводчика, обеспечивая получение высококачественного перевода, жестко ориентированного на конкретную предметную область, задачи пользователя и тип документации. Это действие компьютера для выхода целостных соответствующих текстов. Роль редактора человека здесь очевидна.

Используемая литература[sửa]

1. Байрамова Л.К. Вопросы машинного перевода. Казань, 1973.- 96 с.

2. Бельская И.К. Язык человека и машина. М., 1969. - 410 с.

3. Беляева Л.Н.Теория и практика перевода. Санкт-Петербург, 2003. - 84c.

4. Беляева Л.Н. Лингвистические автоматы в современных информационных технологиях. - Санкт - Петербург, 2001. - 130 c.

5. Буре Н. А. и др. Основы научной речи. Москва - СПб, 2003.

6. Зубов А.В., Зубова И.И. Информационные технологии в лингвистике. М., 2004. - 204 с.

7. Кибрик А.Е. Очерки по общим и прикладным вопросам языкознания. Москва, 2002.

8. Кулагина О. С. Исследование по машинному переводу. М., 1979.

9. Кулагина О. С. Машинный перевод: современное состояние.// В сб.: Семиотика и информатика. Вып. 29. // М., ВИНИТИ, 1989.

10. Клюканов И.Э. Основные модели перевода. Калинин, 1988. - 52с.

11. Дорот В., Новиков Ф. Толковый словарь современной компьютерной лексики. БХВ - Пет., 2001. - 512 с.

12. Лесохин М.М., Лукьяненков К.Ф., Приотровский Р.Г. Введение в математическую лингвистику. Минск, 1982. - 263 с.

13. Лингвистический энциклопедический словарь. Под ред. В.Н.Ярцевой. М., 1990.

14. Марчук Ю.Н. Проблемы машинного перевода. М., 1983. - 233с.

15. Марчук Ю.Н. Машинный перевод как информационная и технологическая реальность. М., 1988. - 36 с.

16. Марчук Ю.Н. Прикладная лингвистика и компьютер. Реферат. М., 1992. - 41 с.

17. Microsoft Press. Толковый словарь по вычислительной технике. М., Русская редакция, 1995. - 496 с.

18. Научно-технический перевод. Отв. ред. Ю.Н.Марчук. М., 1987. - 142с.

19. Никогосов С.Л. Проблема автоматического перевода зарубежом.// Сборник научных трудов. Вып. 271 - Машинный перевод и прикладная лингвистика. Проблемы создания системы автоматического перевода. М., 1986. - с.143.

20. Нелюбин Л.Л. Компьютерная лингвистика и машинный перевод. М., 1991, 151 стр.

21. Резвин И.И. Современная структурная лингвистика. М., 1977. - 264 с.

22. Рогожникова Р.П. и др. Основные направления автоматизации лингвистических исследований. Л., 1986. - 42 с.

23. Рябцева Н.К. Информационные процессы и машинный перевод. Лингвистический аспект. М., 1986. - 168 с.

24. Слокум Дж. Обзор разработок по машинному переводу: история вопроса, современное состояние и перспективы развития. // Новое в зарубежной лингвистике: Вып. XXIV // Сост., ред. и вступ. ст. Б.Ю.Городецкого. — М.: Прогресс, 1989. - 432 с.

25. Стеблин-Каменский М. И. Значение машинного перевода для языкознания. // В сб.: Материалы по машинному переводу. Сб. 1. // Л., Изд. ЛГУ, 1958.

26. Убин И.И. и др. Автоматизация переводческой деятельности в СССР. М., 1989. - 28 с. 27. Федоров А.В. Основы общей теории перевода. М., 1983.

28. Холзнер С. - Perl : Специальный справочник. СПб: Питер, 2001. - 496с.

29. Шемакин Ю.И. Начала компьютерной лингвистики. М., 1992.

30. Gazdar G., Klein E., Pullum G. and Sag I. Generalized Phrase Structure Grammar. Oxford: Basil Blackwell, 1985.

31. Grover, C., Carroll, J. and Briscoe, T. The Alvey Natural Language Tools Grammar (4-th Release). University of Cambridge, 1993.

32. Kay M. The Proper Place of Men and Machines in Language Translation. Working paper CSL - 80 - 11. Xerox PARC, 1980.

33. Machine Translation - Theoretical and methodological issues. Ed. by Sergei Nirenburg. Cambridge, 1987. - 350 c.

34. Hutchins W.J. Machine Translation: past, present, future // Ellis Horwood Series in Computers and their Applications - Wiley, Halsted Press, 1986. - 382pp.

35. Shaumyan, S. A Semiotic. Theory of Language. Indiana University Press, 1987.


Bản quyền[sửa]

TS. Đào Hồng Thu

Machine Translation