Đề Nghị Một Dự Án Ngữ Toán Tiếng Việt

Từ Thư viện Khoa học VLOS
Bước tới: chuyển hướng, tìm kiếm

Tóm lược

Bài viết đề nghị một dự án nhằm thiết lập cơ sở Ngữ Toán (Natural Language Processing infrastructure) Tiếng Việt. Cơ sở này gồm ba thành phần liên kết: (1) Kho Văn Bản (text corpus) (2) Từ Điển Ngữ Nghĩa trực tuyến (on-line context dictionary), (3) Từ Điển Ngữ Học trực tuyến (on-line Linguistics Dictionary). Kho Văn Bản sẽ bao gồm những tác phẩm, bài viết tiêu biểu trong mọi ngành sinh hoạt, trong và ngoài nước. Kho văn bản sẽ được dùng để xác định ngữ cảnh và ngữ nghĩa cho tất cả các từ Tiếng Việt, xưa và nay. Từ Điển Ngữ Nghĩa sẽ dùng Kho Văn Bản để phân loại ngữ cảnh, ngữ nghĩa, và xác định từ loại. Từ Điển này sẽ được nối vào Kho Văn Bản và Từ Điển Ngữ Học. Từ Điển Ngữ Học dùng phương pháp ngữ học chức năng của Linh Mục Lê Văn Lý để xác định từ loại và mẫu câu cho tất cả các hư từ và thực từ tiếng Việt. Từ Điển Ngữ Học sẽ nối kết với Từ Điển Ngữ Nghĩa và Kho Văn Bản. Cơ sở Ngữ Toán này không những cần thiết cho những nghiên cứu Ngữ Toán Tiếng Việt, mà còn hữu ích cho những dự án nghiên cứu Tíếng Việt và phiên dịch trong tương lai.

Mở đầu

Ngữ Toán (Natural Language Processing, NLP) là một chuyên ngành trong lãnh vực Trí Tuệ Nhân Tạo (Artificial Intelligence, AI)[1]. NLP có mục đích thiết kế nhu liệu (software) dùng để phân tích, nhận thức và sử dụng ngôn ngữ con người (natural language) . Mục đích tối hậu của NLP là giúp người và máy tính (computer) “nói chuyện với nhau”. Hơn 50 năm qua, dù đã có những tiến bộ vượt bực trong ngành AI nói chung, và NLP nói riêng, nhưng “còn lâu” người và máy mới có thể nói chuyện như giữa người và người vì những khó khăn cơ bản trong vấn đề truyền đạt tri thức (knowledge) cho máy tính[3], [4]. Bộ não con người có cơ cấu nhận thức cực kỳ hữu hiệu mà đến nay không một hệ thống NLP nào có thể mô phỏng (simulate) được [5]. Trong thời gian đầu, các hệ thống NLP thường dùng qui tắc ngữ học (grammar, rule-based), nhưng khó khăn chưa thể vượt qua là kiến thức ngữ học không thể truyền dạy cho máy bằng những qui tắc. Chúng ta chỉ có thể dạy máy thấy cây, nhưng chưa thể dạy máy thấy rừng! Không thể giải quyết vấn đề truyền thụ kiến thức cho máy, nhiều hệ thống NLP bỏ hẳn phương pháp qui tắc để dùng phương pháp thống kê (statisics) [6]. Gần đây hơn nữa là phương pháp dùng thí dụ (example-based), nhất là các hệ thống phiên dịch bằng máy (Machine Translation) [7]. Dùng thống kê và thí dụ chỉ là những phương pháp tạm thời, không thoả đáng trên bình diện trí tuệ vì các hệ thống này chỉ trông cậy vào “sức thô thiển” (brute force) của máy tính. Mà người thiết kế các hệ thống này cũng không lấy làm hân hoan cho lắm, vì mang tiếng là AI, nhưng máy không có chút thông minh nào.

Theo chân các nhà khảo cứu NLP thế giới, nhiều chuyên viên tin học Việt Nam đã dùng NLP cho tiếng Việt, nhất là trong những nghiên cứu thiết kế nhu liệu dịch tự động. Dù phương pháp tiếp cận có khác nhau, người nghiên cứu NLP nào cũng cần một số kho dữ liệu ngôn ngữ (language data bases) tương đối đầy đủ . Để giúp những chuyên gia trong và ngoài nước phương tiện nghiên cứu Ngữ Toán Tiếng Việt, chúng tôi đề nghị một Dự Án Ngữ Toán Tiếng Việt (DANTTV). Dự án này không những chỉ giúp người nghiên cứu NLP, mà nó còn rất bổ ích cho những nhà ngữ học tiếng Việt, các tác giả tiếng Việt, những người làm văn học, các nhà làm từ điển, các chuyên viên phiên dịch, và nói chung, tất cả những ai muốn tìm hiểu tiếng Việt. DANTTV bắt đầu bằng những công tác khả thi, đặt nền móng cho những dự án thâm cứu về sau.

Một kho văn bản (text corpus) rộng lớn và tiêu biểu

Muốn khảo sát ngôn ngữ, ngữ pháp, cú pháp, từ dụng, phong cách, tu từ, chúng ta cần có một kho văn bản rộng lớn và tiêu biểu. Kho văn bản này cần chứa các tác phẩm trong những ngành khác nhau (văn học, tiểu thuyết, thơ, khảo cứu lịch sử, bình luận chính trị, kinh tế, xã hội, khoa học), nhiều dạng khác nhau (báo chí, sách in, Internet, bài nói chuyện, diễn văn), trong và ngoài nước, trước và sau 1975. Trong thời điểm hiện tại (2/2005) chúng ta có thể truy cập rất nhiều sách báo trên Internet, nhưng cần phải khảo sát tính tiêu biểu (representative) của chúng. Tỉ dụ như chúng ta không thể cho vào tất cả các truyện chưởng tìm thấy khắp nơi trên mạng Internet, vì nếu làm thế, tần số các từ “Tàu” tỉ dụ như chưởng, hiệp, huynh, đệ, bang, quyền, cước, chiêu, những từ chúng ta không dùng trong đời thường, sẽ xuất hiện rất nhiều trong kho văn bản, gây sai lệch các kết quả ngữ toán thống kê (xin mở một dấu ngoặc ở đây: bài viết không phân biệt tự - chữ đơn – và từ - gồm nhiều tự; từ sẽ được dùng cho cả từ đơn và từ kép). Ngược lại, chúng ta cũng không thể hoàn toàn loại bỏ mọi sách chưởng, coi nó như tai hại cho sự trong sáng tiếng Việt. Dù muốn dù không, các từ chưởng đã đi vào từ vựng tiếng Việt, vì hầu hết chúng ta đều hiểu “tuyệt chiêu”, “cao thủ” nghĩa là gì, dù có người chưa bao giờ đọc chưởng. “Tuyệt chiêu”, “cao thủ” đã có diện mạo tiếng Việt, đã trở thành một từ tiếng Việt qua “chưởng”, cũng như “Darth Vader” đã vào ngôn ngữ Anh qua “Star War”.

Kho văn bản đóng vai trò vô cùng quan trọng trong hầu hết các nghiên cứu ngữ toán và ngữ học. Kho văn bản này là “phòng thí nghiệm” giúp ta đo lường mức độ khả tín các giả thuyết ngữ học, giúp ta thẩm định cách giải thích từ nghĩa trong các từ điển hiện hành. Một từ điển chỉ được coi là có căn bản khoa học nếu nó được minh chứng bằng một kho văn bản đáng tin cậy. Kho cần bao nhiêu văn bản? Hãy lấy một vài con số [9]: kho văn bản trường Đại Học Brown: 1 triệu chữ; kho văn bản British National Corpus: 100 triệu chữ, 4000 văn bản; kho văn bản Collins/Birmingham Bank of English: 300 triệu chữ. Thiết nghĩ kho văn bản tiếng Việt chỉ cần phân nửa BNC Corpus (50 triệu chữ, 2000 văn bản) là đủ vì số từ vựng tiếng Việt tương đối ít so với từ vựng tiếng Anh, và chữ Quốc ngữ có quá trình phát triển rất ngắn ngủi (chữ Quốc Ngữ chỉ được thực sự sử dụng từ đầu thế kỷ 20, dù Trương Vĩnh Ký viết “Chuyện đời xưa” từ năm 1866) nên không cần phải có nhiều văn bản như tiếng Anh, tiếng Pháp. Để so sánh, một từ điển xuất bản trong nước [10] chỉ dùng khoảng 60 tác phẩm để làm thí dụ, mà một số lớn trong các tác phẩm hiện diện chỉ vì uy thế chính trị của người viết hơn là thẩm quyền ngữ học của các tác phẩm liệt kê (Hồ Chí Minh, Phạm Văn Đồng, Lê Khả Phiêu, Nguyễn Văn Linh). Kho văn bản sẽ được cập nhật thường xuyên với những bài viết, sách vở mới nhất trong và ngoài nước. Chúng ta dễ dàng phát hiện những từ mới, những cách dùng mới trong tiếng Việt.

Một từ điển trực tuyến hoàn chỉnh tiếng Việt

Chúng ta cần một từ điển trực tuyến (on-line) tiếng Việt. Từ điển này cần phải bao gồm từ vựng dùng trong nước và ngoài nước, trước 75 và sau 75. Các ngữ nghĩa (sense) sẽ được đối chiếu qua các ngữ cảnh (context) lấy từ kho văn bản. Mỗi từ trong từ điển sẽ có một kết nối (link) đến một trang web liệt kê từ nghĩa với những thí dụ lấy từ kho văn bản, và bổ ích hơn hết, người tra cứu sẽ có dịp tham khảo những thảo luận của các chuyên gia ngữ học, các bậc thức giả, độc giả yêu tiếng Việt góp ý, phê bình, khảo sát các từ này trên nhiều khía cạnh khác nhau, theo các quan điểm khác nhau. Chúng ta có thể nối từ điển này vào từ điển chữ Nôm vừa mới ra đời trên Viện Việt Học. Từ điển này là kho kinh nghiệm tiếng Việt của hàng trăm, hàng ngàn người Việt khắp thế giới. Trong hoàn cảnh ấy, không có ai có thể tự xưng “ngự sử hàn lâm” để độc đoán “phán” rằng cách dùng này chuẩn, cách dùng kia là không chuẩn. Chính những kết quả lấy từ kho văn bản sẽ cho ta thấy cách sử dụng các từ. Từ từ điển trực tuyến này chúng ta có thể thiết lập một số nhu liệu miễn phí, tỉ dụ như nhu liệu kiểm soát chính tả, nhu liệu tính tần số các từ sử dụng (chữ nào dùng nhiều nhất trong Kiều, chữ “tình” xuất hiện bao nhiêu lần, v.v.). Một loạt các tiểu dự án có thể hình thành từ dự án từ điển trực tuyến này, như từ điển song ngữ (Việt Pháp, Việt Anh, Việt Hán), từ điển thành ngữ, từ điển đồng âm, từ điển đồng nghĩa, từ điển phải nghĩa, từ điển từ nguyên, từ điển từ cổ, từ điển Nôm, từ điển từ láy. Hy vọng với thời gian, từ điển này sẽ trở thành một tác phẩm thẩm quyền nhất, đầy đủ nhất cho tiếng Việt thân yêu cùa chúng ta.

Từ Điển Ngữ Học

Quyển “Việt Nam Văn Phạm” của Trần Trọng Kim, Bùi Kỷ, Phạm Duy Khiêm (TTK-BK-PDK) xuất bản năm 1941 là quyển văn phạm đầu tiên viết bằng chữ Quốc Ngữ cho người Việt (trước đó, Alexandre de Rhodes phân loại các loại từ tiếng Việt trong Từ Điển Việt Bồ La từ năm 1651 [11], Trương Vĩnh Ký viết Abrégé de Grammaire Annamite từ năm 1867). Chịu ảnh hường văn phạm tiếng Pháp, các tác giả “Việt Nam Văn Phạm” quy chiếu văn phạm tiếng Việt qua văn phạm tiếng Pháp. Tuy nhiên, một điều không thể chối cãi, tiếng Việt rất khác tiếng Pháp trong vấn đề từ loại và cấu trúc câu. Khá nhiều từ không có từ loại nhất định vì từ loại của chúng thay đồi tùy theo chức năng và vị trí trong câu. Học giả Hồ Hữu Tường (HHT) dùng thí dụ sau đây [12]

“Nếu cây viết máy của anh hư à, thì anh lấy cây viết mực này mà viết cho hết bài viết đi”.

Trong câu này:

cây viết máy, cây viết mực: viết là thành phần bất khả phân trong từ kép; viết ở đây không phải là tĩnh từ (adjective), vì nếu là tĩnh từ ta có thể bỏ đi mà từ vẫn có nghĩa, dù hơi khác so với khi có tĩnh từ hiện diện. Rõ ràng, cây máy và cây mực không có nghĩa gì cả

mà viết: viết ở đây là động từ (verbs)

bài viết: viết đây là bổ từ cho danh từ bài, đóng vai trò tĩnh từ. Chúng ta có thể bỏ chữ viết trong bài viết mà từ và câu vẫn có nghĩa.

Vì lý do đó, ông HHTcho là tiếng Việt không có từ loại.

Công nhận tiếng Việt khác tiếng Pháp, nhưng không muốn bỏ từ loại theo đề nghị ông HHT, Nguyễn Hiến Lê (NHL) và Trương Văn Chình (TVC) đề nghị một cách phân loại mới các từ tiếng Việt [13]

thể từ: như danh từ
trạng từ: chỉ chung cho động từ, tĩnh từ, và trạng từ (adverbs)
trợ từ
quan hệ từ

NHL&TVC cũng đề nghị cách phân tích mới cấu trúc câu tiếng Việt bằng từ vụ (function) chính và từ vụ phụ

Theo thiển ý, tác giả “Việt Nam Văn Phạm” dùng ngữ pháp tiếng Pháp để giải thích ngữ pháp tiếng Việt có nhiều chỗ gượng ép. Tỉ dụ như trong câu

đẹp hóa xấu

TTK-BK-PDK cho rằng đẹp và xấu là tĩnh từ, trong khi định nghĩa tĩnh từ là bổ từ cho danh từ. Đúng ra, đẹp và xấu là danh từ chủng thể (nói chung): đẹp mang chức năng chủ tử (subject), xấu mang chức năng “túc tử” (object)

Tuy cách phân loại của TTK-BK-PDK có nhiều thiếu sót, nhưng không vì thế chúng ta có thể gạt bỏ từ loại ra khỏi tiếng Việt như đề nghị ông HHT, vì một số lớn cú pháp tiếng Việt vẫn có thể dùng cách phân tích như trong ngữ pháp tiếng Pháp. Trong quyển “A Vietnamese Reference Grammar”, nhà ngữ học người Mỹ Laurence Thompson [14] cũng dùng các phân loại như TTK-BK-PDK, dù có thay đổi khá nhiều trong cách phân tích câu.

Trong quyển “Sơ Thảo Ngữ Pháp Việt Nam” (STNPVN), [15] và “Le Parler Vietnamien”[16], Lê Văn Lý (LVL) đề nghị phương pháp mô tả ngôn ngữ (descriptive) mới. Phương pháp này hoàn toàn khác với TTK-BK-PDK trong quan niệm văn phạm và ngữ học. Văn phạm là những qui tắc tuyệt đối được đặt ra: nếu viết sai văn phạm thì coi như viết sai. Ngôn ngữ mô tả xem ngôn ngữ như một quy ước và thói quen của một cộng đồng: đúng hay sai chỉ có giá trị tương đối, tùy theo tỉ lệ sử dụng nhiều hay ít. Theo LVL, tiếng Việt có rất nhiều hư từ (les mots vides) và chính những hư từ này mang vai trò mấu chốt trong cấu trúc câu. Trong STNPVH, ông LVL liệt kê đặc tính, cách sử dụng các hư từ con, cái, những, mấy, lắm, nhiều, đông, đầy, các, mọi, cả, rồi, vẫn, vừa, mới, sắp, sẽ, được, bị, lấy,...

Phương pháp ngữ pháp mô tả như cách trình bày của ông LVL rất thích hợp cho ngữ toán vì nhiều lý do:

Tiếng Việt không có những mẫu câu (sentence patterns) có giá trị phổ quát để có thể áp dụng trong việc phân tích cú pháp bằng máy (parsing)

Tiếng Việt tùy thuộc nhiều vào hư từ để xác định cấu trúc câu

Dùng kho văn bản, ta có thể thiết lập một kho các mẫu câu dùng hư từ làm căn bản Từ Điển Ngữ Học là kho các mẫu câu dùng hư từ làm căn bản. Với TĐNH, chúng ta có thể dùng nó làm điểm xuất phát cho những từ điển song dịch: mỗi mẫu câu tiếng Việt sẽ tương ứng với một (hay nhiều) mẫu câu tiếng Anh, tiếng Pháp, tiếng Hoa. Ngữ pháp đối chiếu này rất bổ ích cho chúng ta, những người Việt nước ngoài, đôi khi quen với ngôn ngữ bản địa hơn cả ngôn ngữ mẹ đẻ, cả về từ vựng và ngữ pháp.

Những dự án này có thể tiến từng bước tuần tự hoặc song hành. Dùng phương tiện Internet, với sự bảo trợ của tổ chức uy tín như Viện Việt Học, chúng ta có thể quy tụ một số giáo sư, chuyên gia, các bậc thức giả để hướng dẫn thảo luận, đề nghị phương pháp khả thi. Kết quả của dự án sẽ được công bố miễn phí để các nhà làm văn hóa, các nhà khảo cứu ngữ học, các công ty làm nhu liệu, từ điển có thể dùng để thiết kế nhu liệu kiểm soát chính tả, (Spell Checker), máy dịch tự động (Machine Translation), nhu liệu nhận dạng chữ viết (OCR, Optical Character Recognitìon), nhu liệu tổng hợp tiếng nói (Voice Synthesizer), nhu liệu đọc sách cho người mù (Text/Screen Reader), nhu liệu nghe tiếng nói (Voice Recognition), và mục đích cao cả nhất của ngành NLP, nhu liệu giao diện người và máy (Man-Machine interative system)

Tác giả

  • Phạm Hải, Camarillo, 2/2005
  • Bài nói chuyện trong buổi Hội Thảo Chữ Nôm ngày 5 tháng 3, 2005,

Viện Viện Học 15355 Brookhurst St., Suite 222, Westminster, CA 92683, USA


Tài Liệu Tham Khảo

[1] Artificial Intelligence, A Modern Approach Stuart Russel, Peter Norvig; Prentice Hall 1995

[2] Artificial Intelligence, Patrick Henry Winston, Addison Wesley, 1984

[3] Speech and Language Processing, Daniel Juranfsky & James H. Martin; Prentice Hall, 2000

[4] Natural Language Understanding, James Allen; The Benjamins/Cummings 1995

[5] Words and Rules, The Ingredients of Language, Steven Pinker; Perennial 2000

[6] Foundations of Statistical Natural Language Processing, Christopher D. Manning, Hinrich Schütze; the MIT Press, 2001

[7] Recent Advances in Example-Based Machine Language

[7] D.Dien. 2002b. Building a training corpus for word sense disambiguation in the English-to-Vietnamese Machine Translation. Proceedings of Workshop on Machine Translation in Asia, COLING-02, Taiwan, 9/2002

[8] D. Dien, H.Kiem, and N.V.Toan. 2001a. Vietnamese Word Segmentation. Proceedings of NLPRS’01 (The 6th Natural Language Processing Pacific Rim Symposium), Tokyo, Japan, 11/2001.

[9] http://www.informatics.sussex.ac.uk/courses/nlp/lecture-notes/corpus-2.pdf

[10] Tự Điển từ và ngữ Việt Nam, Nguyễn Lân; Nhà Xuất Bản TP Hồ Chí Minh 1998

[11] 100 Năm Phát Triền Tiếng Việt, Phụng Nghi; Văn Nghệ, 1999

[12] Lịch Sử Văn Chương Việt Nam, Hồ Hữu Tường; 1949, trích dẫn trong Lược Khảo vê Ngữ Pháp Việt Nam, Doãn Quốc Sỹ, Đoàn Viết Bửu; Trường Sư Phạm Sàigòn, 1973

[13] Khảo Luận Về Ngữ Pháp Việt Nam, Trương Văn Chình và Nguyễn Hiến Lê; Đại Học Huế, 1963

[14] A Reference Vietnamese Grammar, Laurence C. Thompson; 1965, Unìversity of Hawaii

[15] Sơ Thảo Ngữ Pháp Việt Nam, Lê Văn Lý; 1968, Bộ Giáo Dục, Trung Tâm Học Liệu Xuất Bản, Sàigòn

[16] Le Parler Vietnamien, Lê Văn Lý; 1960, Bộ Quốc Gia Giáo Dục, Sàigòn