Skip to content
  • Trang chủ
  • Khóa học
    • Khóa học trực tiếp về bản địa hóa
    • Khóa học online về bản địa hóa
    • Khóa học trực tiếp về quản lý dự án
  • Tin Tức & Bài Viết
    • Tin Tức
    • Sự Kiện
    • Bài Viết
  • Giới thiệu
    • Về Dr.localize
    • Về Wisdom
    • Cộng tác cùng chúng tôi
  • Kết nối
  • Tiếng Việt
  • Trang chủ
  • Khóa học
    • Khóa học trực tiếp về bản địa hóa
    • Khóa học online về bản địa hóa
    • Khóa học trực tiếp về quản lý dự án
  • Tin Tức & Bài Viết
    • Tin Tức
    • Sự Kiện
    • Bài Viết
  • Giới thiệu
    • Về Dr.localize
    • Về Wisdom
    • Cộng tác cùng chúng tôi
  • Kết nối
  • Tiếng Việt

NHỮNG THAY ĐỔI CỦA NGÀNH NGÔN NGỮ TRƯỚC SỰ PHÁT TRIỂN CỦA AI

Creating and Editing Professional Videos with AI at Your Fingertips
Mặc dù khái niệm trí tuệ nhân tạo xuất hiện lần đầu vào năm 1956, nhưng chưa có nhiều tác động đến ngành ngôn ngữ. Phải đến năm 2020 khi OpenAI phát hành mô hình xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) thành công thì kỷ nguyên AI mới thực sự bùng nổ. Trước khi AI xuất hiện, các chuyên gia ngôn ngữ là người thực hiện các công việc như dịch thuật, nhận dạng giọng nói, dạy và học ngoại ngữ, sáng tạo nội dung, phân tích ngôn ngữ và cảm xúc… Nhưng sau đó, công nghệ AI ra đời, đã cho phép máy tính có thể thực hiện các công việc liên quan đến ngôn ngữ một cách tự động, nhanh chóng và chính xác hơn, mở ra cơ hội giao tiếp đa ngôn ngữ trên toàn cầu.
Dưới đây là một số ứng dụng của AI trong ngành ngôn ngữ:
Dịch thuật (Translation)
AI đã được ứng dụng trong dịch thuật tự động (machine translation), giúp dịch từ ngôn ngữ này sang ngôn ngữ khác một cách nhanh chóng và chính xác. Một số công nghệ AI nổi bật trong lĩnh vực này như Bard – AI của Google, Meta – Facebook, ChatGPT, …
Nhận dạng giọng nói (Speech Recognition)
Công nghệ này giúp chúng ta chuyển giọng nói sang văn bản, thực hiện tự động hóa thông qua các lệnh. Một số công nghệ AI nổi bật trong lĩnh vực này bao gồm Alibaba Cloud Intelligent Speech Interaction, Amazon Transcribe, Google Speech-to-Text API, Microsoft Azure Cognitive Services for Speech, AssemblyAI…
Học ngoại ngữ (Foreign Language Learning)
Nhờ vào khả năng tự học và được đào tạo liên tục, AI đã thay đổi cả cách chúng ta học và giảng dạy ngoại ngữ. Chúng ta đã có các ứng dụng giảng dạy ngôn ngữ trực tuyến, hỗ trợ tự học và cải thiện quy trình giảng dạy truyền thống như Elsa, DuoLingo…
Tạo nội dung (Content Creation)
AI hiện đã có khả năng tạo ra nội dung quảng cáo, hình ảnh, video…theo mô tả của người dùng. Một số công nghệ AI nổi bật trong lĩnh vực này bao gồm Clickup, Lately, Copy.ai, Synthesia, Murf, Canva,…
Phân tích cảm xúc (Sentiment Analysis)
AI cũng được ứng dụng trong việc phân tích cảm xúc thông qua nhận dạng văn bản, giọng nói…, có thể kể đến các ứng dụng như Brand24, Social Mention, Sentiment Analyzer,…
AI giúp ngành ngôn ngữ trở nên hiệu quả và linh hoạt hơn, nhờ đó con người có thể tập trung vào những công việc sáng tạo và mang tính chất tư duy cao hơn. Tuy nhiên, chúng ta cũng gặp phải những thách thức mới, chẳng hạn như công nghệ này sẽ sớm thay thế phần lớn các công việc cơ bản của con người như dịch thuật, giảng dạy, viết tin bài…
5 ngày là thời gian để ChatGPT của OpenAI đạt được một triệu người dùng và nó không dừng lại ở con số đó. Theo các nhà phân tích, dịch vụ này đạt 100 triệu người dùng chỉ sau hai tháng.
Ví dụ này là minh chứng cho thấy sự thu hút mạnh mẽ của AI với người dùng. Xét riêng về ngành dịch tại Việt Nam, chúng ta có thể thấy sự biến đổi qua từng giai đoạn như sau:
Trước năm 2000
cropped view of translator working with hieroglyphics and magnifying glass

Biên dịch viên làm việc với bút và giấy.

2000
Beautiful business woman working with computer while talking with earphone sitting in the office.

Người dịch chuyển đổi sang làm việc trên máy tính với Word, Excel.

2005

Giới biên dịch Việt Nam tiếp cận công cụ dịch được máy tính hỗ trợ (CAT Tool)

2015

Mặc dù dịch máy lần đầu tiên xuất hiện ở Việt Nam vào năm 2008 qua sự ra mắt của Google Translate, nhưng đến năm 2015 trào lưu này mới bắt đầu lan rộng. Tuy nhiên, những người làm nghề ra sức phản đối vì nhiều lý do, trong đó quan trọng nhất là chất lượng dịch kém.

Chỉ trong một thời gian ngắn, công nghệ đã biến hóa khôn lường. Những việc 10 năm trước chúng ta còn cho rằng là không thể như dịch hàng nghìn từ trong một phút hay không cần phiên dịch viên cũng có thể hiểu được ngôn ngữ của nước khác thì giờ đây tất cả đã trở nên phổ biến trên toàn cầu. Khắp trên Internet là các bài đăng tìm người biên tập nội dung do AI sáng tạo, đào tạo AI, định mức cho một biên tập viên là 200 – 250 bài viết mỗi tuần, một khối lượng công việc không hề nhỏ nếu chúng ta phải tự sáng tạo nội dung mà không có máy hỗ trợ. Hiện nay, nội dung được sản xuất và dịch ra nhiều ngôn ngữ chỉ trong vài phút. Các thương hiệu, công ty, những người làm truyền thông có thể nhấn chìm thế giới trong ngôn từ do AI tạo ra. Không khó để nhận ra những thay đổi về mặt ngôn ngữ được thể hiện qua các yếu tố sau:
Cách sử dụng ngôn ngữ trong các văn bản, phương tiện
Theo khảo sát ý kiến của người tham gia dự án đào tạo AI tại công ty Dr.Localize, xu hướng sử dụng ngôn từ đơn giản, câu cú ngắn gọn, súc tích và dễ hiểu ngày càng phổ biến hơn. Như ví dụ dưới đây:
  • EN: You are giving me different answers each time. Please just calculate £4,200 + 4.6%.
  • VI: Mỗi lần lại cho một kết quả khác nhau. Bây giờ chỉ cần tính 4.200đ + 4,6% là được.
Theo ví dụ này, người dịch đã không sử dụng đại từ nhân xưng, chỉ giữ lại ý của câu gốc. Nếu theo yêu cầu dịch thông thường, cách dịch này sẽ bị đánh lỗi về tính chính xác nhưng khi đào tạo AI, người dịch được tự do diễn đạt, kể cả theo lối nói chuyện giao tiếp thông thường.
Ngôn ngữ hình ảnh, biểu tượng
Sự phát triển của công nghệ đã dẫn đến sự ra đời của các ngôn ngữ hình ảnh, biểu tượng. Các ngôn ngữ này được sử dụng phổ biến trong các nền tảng truyền thông xã hội, trò chơi điện tử, dưới dạng đồ họa thông tin, emoji, gif, meme… Các thành phần này có thể truyền tải những ý tưởng phức tạp một cách hiệu quả, nó không đòi hỏi bạn phải biết ngôn ngữ đó mà vẫn hiểu được ý của người gửi. AI có thể gợi ý những hình ảnh, biểu tượng phù hợp dựa trên ngữ cảnh của văn bản để thay cho chữ viết. Vậy ngôn ngữ sẽ thay đổi thế nào trong tương lai?
Công cụ giao tiếp online
Ken Perlin – Giáo sư khoa học máy tính tại Đại học New York, tác giả cuốn sách Future Reality: How Emerging Technologies Will Change Language Itself, tin rằng ngôn ngữ của tương lai có thể ít được biểu đạt qua lời nói hơn, thay vào đó chúng ta sẽ giao tiếp qua hình thức chat, email, comment trên các ứng dụng trực tuyến hoặc mạng xã hội. Điều này có khả năng là sự thật khi mà tại các văn phòng hiện đại, con người chủ yếu trao đổi qua tin nhắn, email dù làm việc trong cùng một không gian, thậm chí ngồi đối diện.
Từ vựng
Nhiều chuyên gia tin rằng lượng thuật ngữ và tiếng lóng mà chúng ta sử dụng trong cuộc sống hằng ngày hiện đang gia tăng nhanh hơn bao giờ hết. Với khoảng một nửa dân số thế giới hiện đã kết nối Internet, mức độ giao tiếp tăng lên đáng kể, nhất là ở đối tượng giới trẻ – Gen Z và Gen Alpha. Một ví dụ về sự sáng tạo từ mới trong giới trẻ ngày nay có thể kể đến như “giận tím người”, “mãi mận, mãi keo”, “xà lơ” hoặc “slay – sờ lây”. Thực tế này cho thấy, các ý tưởng, từ ngữ và cụm từ đang được tạo ra và lưu hành với tốc độ chóng mặt. Trước đây, phải mất nhiều năm để ngôn ngữ chuyên môn được chuyển từ nhà phát triển sang công chúng. Bây giờ, nhờ sự phát triển của công nghệ và mạng xã hội, các thuật ngữ có thể đi vào đời sống cực kỳ nhanh chóng, chẳng hạn như Thực tế ảo (Virtual Reality), Thu hút nhân tài (Talent Acquisition), FOMO (Fear of missing out) – hội chứng sợ bỏ lỡ, v.v.
Chúng ta sẽ có lúc cảm thấy mình chỉ như một con cá nhỏ ngụp lặn trong đại dương nội dung. Điều này dẫn chúng ta đến đâu? Trước tiên chúng ta hãy nhìn vào những điều tích cực mà AI mang lại:
Sáng tạo nội dung với Generative AI (AI Tạo sinh)
Nỗ lực tìm kiếm nội dung thu hút sự chú ý của khách hàng diễn ra liên tục trong bối cảnh tiếp thị luôn thay đổi. Đó là lúc xuất hiện Generative AI, một công nghệ đột phá có khả năng biến đổi việc tạo nội dung trong lĩnh vực B2B. Theo Statista, một nghiên cứu năm 2023 cho thấy 73% các nhà tiếp thị ở Hoa Kỳ cho biết tổ chức của họ đã sử dụng các công cụ Generative AI, bao gồm chatbot. Với khả năng tạo ra văn bản, hình ảnh và video giống nội dung con người tạo, Generative AI cung cấp cho các nhà tiếp thị một bộ công cụ mạnh mẽ. Thông qua công cụ này, các nhân viên sáng tạo nội dung xây dựng các câu chuyện hấp dẫn, điều chỉnh thông điệp nhắm đến đối tượng mục tiêu và cuối cùng thúc đẩy sự tham gia của khách hàng. Bộ công cụ mạnh mẽ này có thể kể đến như Phrasee, Jasper, Copy.ai và Writesonic giúp các nhà tiếp thị nhanh chóng tạo ra nội dung chất lượng cao, cũng như hỗ trợ quá trình biên tập bằng cách kiểm tra lỗi chính tả, ngữ pháp và văn phong. Điều này giúp cải thiện chất lượng của nội dung sáng tạo và giảm thời gian cần thiết cho việc chỉnh sửa. Chúng ta có thể bắt gặp các bài viết do AI tạo ra trên các blog, mạng xã hội, email tiếp thị, thư chào bán, trang web, quảng cáo, thông cáo báo chí, podcast, video… Chẳng hạn như Phrasee, ứng dụng này hoạt động bằng cách sử dụng dữ liệu lịch sử về hiệu suất của các tiêu đề email và nội dung quảng cáo khác nhau để tạo ra các dự đoán về hiệu suất của các tiêu đề và nội dung mới. Phrasee cũng sử dụng các kỹ thuật Generative AI để tạo ra các tiêu đề email và nội dung quảng cáo mới, độc đáo và được cá nhân hóa theo đối tượng mục tiêu. Công cụ Phrasee được nhiều thương hiệu lớn sử dụng như Uber, AirBnB, Spotify, v.v. Tuy nhiên, Generative AI không phải là sự thay thế cho khả năng sáng tạo của con người mà chỉ là một công cụ mạnh mẽ trong việc tạo nội dung và mang lại các chiến dịch có tác động thúc đẩy kết quả mạnh hơn. Với nội dung tiếng Việt, những nhà sáng tạo nội dung hiện đang rất ưa chuộng ChatGPT, Creaitor.ai, Laho AI, Rytr, WriterZen,…
Rút ngắn khoảng cách về giao tiếp, đẩy nhanh tốc độ truyền đạt và thúc đẩy kinh tế phát triển
Dự báo thị trường AI toàn cầu tính đến năm 2030
AI đã rút ngắn khoảng cách về giao tiếp trên toàn cầu. Khả năng dịch thuật tức thì giữa các ngôn ngữ đã tạo điều kiện thuận lợi cho việc hợp tác và trao đổi thông tin giữa các quốc gia và doanh nghiệp. Điều này đã thúc đẩy tốc độ truyền đạt thông tin, tạo điều kiện cho thương mại quốc tế và kinh tế phát triển. Trên thực tế, AI có xu hướng giảm thiểu giọng điệu và cảm xúc tiêu cực, một nghiên cứu đã phân tích công cụ gợi ý phản hồi Gmail cho thấy công cụ gợi ý này viết theo giọng điệu tích cực hơn nhiều so với khi con người viết. Hay như Grammarly, ứng dụng sửa lỗi ngữ pháp cho người dùng thường xuyên thống kê cách dùng từ và câu của người dùng hằng tháng và khích lệ người dùng sử dụng nhiều từ mang tính tích cực hơn. Những công cụ này có thể thay đổi thói quen và ngôn ngữ người dùng sử dụng để tương tác với nhau. Theo thống kê trên trang Statista, thị trường AI toàn cầu dự tính tăng trưởng từ 150,2 tỷ đô trong năm 2023 lên 1345,2 tỷ đô vào năm 2030 với tỷ lệ tăng trưởng kép ở mức 36,8%.
Dịch nhanh hơn, chất lượng tốt hơn
AI đã đạt được sự cải thiện đáng kể trong chất lượng dịch thuật thông qua các mô hình Machine Learning (Học máy) và Deep Neural Network (DNN – Mạng nơ-ron sâu) có khả năng học từ LLM (Mô hình dữ liệu ngôn ngữ lớn). Các mô hình này tăng cường khả năng dịch đa ngành của AI, cũng như hỗ trợ AI cải thiện về từ vựng, ngữ pháp và diễn đạt. AI có thể cung cấp các bản dịch chính xác hơn, tránh những sai sót thường gặp khi con người dịch như lỗi chính tả, sử dụng thuật ngữ. Ví dụ như Google Dịch, mỗi ngày, công cụ này được các nhà phát triển cập nhật liên tục, không chỉ thế, người dùng còn có thể cung cấp các phản hồi và sửa đổi ngay lập tức. Nhờ đó, chất lượng các bản dịch của Google chính xác và tự nhiên hơn rất nhiều so với trước đây. Hãy cùng xem ví dụ dưới đây:
Cùng một câu tiếng Thái, bản dịch đầu tiên, Google dịch sai hoàn toàn, bệnh nhân đang sống mà dịch thành bệnh nhân đã chết.
Cũng câu đó, một ngày sau Google đã sửa lại hoàn toàn chính xác:
Cải thiện chất lượng và tính trách nhiệm của những người làm ngôn ngữ
Trước sự cải tiến không ngừng của AI, con người không tránh khỏi việc phải tự nhìn nhận lại khả năng của mình. Những người làm ngôn ngữ nhận thức rất rõ rằng để tồn tại được trong thế giới AI thịnh hành chúng ta cần mãi dũa kiến thức về ngôn ngữ và chuyên ngành. Ở kỷ nguyên “phát triển hoặc bị loại bỏ”, kiến thức và tư duy sáng tạo cần được trau dồi mỗi ngày. Hơn bao giờ hết, đây là thời kỳ mà sự sáng tạo là yếu tố quyết định trong cuộc đua với máy móc và công nghệ.
Với ngành ngôn ngữ, không phải cứ đặt bút lên giấy là trở thành chuyên gia ngôn ngữ, chỉ những người có năng khiếu sáng tạo nội dung mới để lại ấn tượng thuyết phục với người đọc, người nghe, người xem. Không chỉ là khả năng sáng tạo, những người làm nghề cần phải nắm rất chắc về kiến thức bởi như trong ngành dịch hiện nay, với mỗi thay đổi, chúng tôi phải tranh biện rất nhiều về mặt ngữ nghĩa, ngữ pháp, thuật ngữ, văn phong, ngữ cảnh, nếu thiếu kiến thức, bản dịch sẽ vô giá trị. Khi mà máy đang ngày càng đạt đến sự chuẩn chỉ trong việc sử dụng ngữ pháp, những người làm công việc đánh giá chất lượng bản dịch cũng trở nên khắt khe hơn, trước đây những lỗi chính tả hay việc lựa chọn từ ngữ theo ngữ cảnh có thể là lỗi mang tính chất nhắc nhở, hướng dẫn, nhưng hiện nay loại lỗi này không được chấp nhận nữa. Chẳng hạn, những từ ngữ dễ nhầm lẫn như “hằng ngày” và “hàng ngày” sẽ là lỗi phải tránh (theo Từ điển tiếng Việt của Hoàng Phê, tr. 539, “hằng ngày” mới là từ đúng khi muốn biểu thị tính chất lặp đi lặp lại một cách định kỳ theo từng đơn vị thời gian), sử dụng câu bị động theo tiếng Anh cũng sẽ bị liệt vào diễn đạt sai. 10 năm trước mức điểm cho một bản dịch đạt yêu cầu chỉ là 80/100 nhưng hiện nay có những khách hàng đòi hỏi lên tới 99/100, nghĩa là chỉ có thể mắc một lỗi nhỏ trên 1000 từ. Việc này giúp nâng cao ý thức về tính cẩn thận, các biên dịch viên cũng tìm hiểu và nghiên cứu sâu hơn khi thực hiện công việc của mình.
Những người làm sáng tạo nội dung cũng không khác, khi viết bài, đưa tin, những thông tin tìm được luôn được kiểm chứng qua nhiều nguồn, họ không vội vàng sử dụng các thông tin đó. Mỗi bài viết ra sẽ được kiểm tra bằng công cụ để đảm bảo hạn chế các lỗi sai dễ nhận thấy như chính tả, dấu cách, định dạng, bố cục. Không chỉ thế, để tránh bị phân loại thành bài viết do AI tạo, người viết buộc phải định hình được phong cách, đưa dấu ấn cá nhân vào mỗi bài viết của mình. Nhận thức đó, khiến cho những người làm trong ngành ngôn ngữ tiến bộ hơn mỗi ngày. Hơn nữa, con người sẽ không mất thời gian để dịch, soạn thảo những bài viết theo khuôn mẫu, AI sẽ thay họ làm việc đó. Con người sẽ dành thời gian để khám phá và tìm hiểu học thuật chuyên sâu hơn nữa.
Bảo tồn văn hóa và phá vỡ rào cản về ngôn ngữ
AI cũng giúp chúng ta tiếp cận và hiểu được các ngôn ngữ hiếm. Gần đây, người sáng lập Masakhane, một cộng đồng NLP tại Châu Phi, đã sử dụng thuật toán AI để bảo tồn và tích hợp hàng nghìn ngôn ngữ Châu Phi vào công nghệ AI. Nhiều ngôn ngữ trong số này chúng ta còn chưa bao giờ nghe đến tên trước đây. Điều này mở ra một cơ hội mới cho Việt Nam, bởi chúng ta có 54 dân tộc và theo trang Ethnologue, Việt Nam có 110 ngôn ngữ được thống kê, trong số các ngôn ngữ đang tồn tại, có 93 là bản địa và 16 thì không, mỗi cộng đồng dân tộc thiểu số có ngôn ngữ riêng của mình. Vậy tại sao chúng ta lại không thể làm được như nhà sáng lập Masakhane để các dân tộc có thể hiểu được tiếng nói của nhau, giúp tăng tính đoàn kết và thuận tiện liên lạc, đồng thời, không làm mai một phương ngữ?
Mặc dù, AI mang đến hiệu quả cao cho công việc của nhiều ngành nghề nhưng đi cùng đó là không ít các thách thức mà chúng ta phải đối mặt. Riêng ngành ngôn ngữ mà cụ thể là ngành dịch, các thách thức đặt ra như sau:
Ảnh hưởng văn phong của máy
Khi tiếp xúc nhiều với ngôn ngữ máy nghĩa là tần suất tiếp xúc với nhiều dạng văn phong khác nhau bị giảm đi, chúng ta sẽ có xu hướng bị “ngấm” dần văn phong của máy, dẫn tới văn phong cứng nhắc, lặp lại, quen với việc sử dụng thể bị động do bản dịch máy bị ảnh hưởng ngữ pháp của ngôn ngữ gốc. Hãy cùng xem ví dụ dưới đây:
  • EN: Brainstorm ideas for what I could name my cat, who is a male.
  • VI: Nghĩ cho tôi tên cho mèo nhà tôi, là mèo đực
Câu dịch lủng củng, từ cho được sử dụng 2 lần do dịch sát nghĩa, không tự nhiên. Lẽ ra có thể dịch “Nghĩ giúp tôi tên cho con mèo đực” là đủ ý rồi, không cần phải lòng vòng. Cùng xem câu tiếp theo:
  • EN: I hope these suggestions help you find the perfect name for your new cat!
  • VI: Tôi hy vọng các gợi ý này giúp bạn tìm được tên hoàn hảo cho con mèo mới của mình!
Đại từ sở hữu thường được sử dụng trong tiếng Anh, còn trong tiếng Việt chúng ta có thể lược bớt mà không làm ảnh hưởng đến thông điệp của người nói/viết. Ở câu này có thể diễn đạt lại tự nhiên hơn như: “Hy vọng bạn có thể tìm được tên phù hợp cho con mèo từ những gợi ý của tôi”. Một câu khác:
  • EN: I know! You could combine a name from each list, and that will be my cat's name.
  • VI: Tôi biết rồi! Bạn có thể kết hợp một tên của mỗi danh sách và đó sẽ là tên cho mèo của tôi.
Câu này khi đọc “Bạn có thể kết hợp một tên của mỗi danh sách”, người đọc sẽ cảm thấy rất tối nghĩa nhưng do người dịch đã đọc quá nhiều nội dung do máy dịch, khiến họ không thể nhận ra sự tối nghĩa trong câu dịch đó để đưa ra đáp án chính xác. Chỉnh sửa dịch máy nhiều sẽ tác động đến quá trình tư duy của người dịch. Bản dịch máy sẽ khiến người dịch “vô tình thuận theo” cả về nghĩa lẫn cách diễn đạt thay vì tư duy độc lập. Nếu chất lượng dịch máy tốt thì đây không phải vấn đề lớn, nhưng ngược lại thì sẽ có ảnh hưởng không chỉ tính ở 1, 2 bài mà còn ảnh hưởng đến kỹ năng của người dịch về lâu dài. Nếu muốn đảm bảo văn phong của bản thân thì chỉ có một cách là xoá hết dịch máy tự làm lại từ đầu, nhưng cách này về lâu dài cũng không ổn. Còn nếu dựa trên dịch máy thì ngay từ khoảnh khắc đọc bản dịch máy, ấn tượng đã bị in trong đầu, từ lúc đó việc rạch ròi giữa đâu là dịch máy đâu là văn phong của mình dường như đã bất khả thi. Về nghĩa thì dịch máy cũng giăng ra rất nhiều cạm bẫy, ví dụ trong câu khi danh từ được thay bằng “it”, “they”, v.v. trong lần xuất hiện thứ 2 trở đi, dịch máy chưa có khả năng nhận biết “it” và “they” đó chỉ danh từ nào. Ngoài ra, dịch máy cũng không có khả năng bao quát toàn bộ một câu dài có cấu trúc phức tạp hoặc bao quát toàn bộ file dịch, dẫn đến việc dịch câu trước đá câu sau, lúc dùng từ này lúc dùng từ kia cho cùng một thuật ngữ, v.v., nói chung là không thể đảm bảo tính nhất quán. Ngôn ngữ luôn linh hoạt và hay thay đổi, mỗi ngày đều có những từ mới được tạo ra và mang đặc trưng nhất định, trong những tình huống nhất định. Dù được đào tạo liên tục thì AI cũng khó mà bắt kịp với các xu hướng về ngôn ngữ và khó bắt chước lời nói, cách diễn đạt, dùng từ của một con người thực sự. Nên nếu như con người phụ thuộc vào máy sẽ dẫn tới ngôn ngữ mất đi sự phong phú vốn có.
Thiếu sự đa dạng, sáng tạo về nội dung đi kèm với chất lượng nội dung giảm sút
Finger Choice Bad Satisfaction Rating
Số người dựa vào AI để viết kịch bản, viết content sẽ ngày càng nhiều. Ngôn ngữ AI sẽ tràn lan trên mạng, và ta khó phân biệt đó là tác phẩm của AI nếu người viết nội dung bằng AI có khả năng hiệu đính thành một bài tinh tươm. Tài liệu do AI viết trên mạng càng nhiều, thì càng nhiều thứ AI viết sẽ thành dẫn chứng, dần dần sẽ có thể thành tiêu chuẩn. Nhưng AI cũng lấy từ nhiều nguồn khác nhau và các nguồn đó chưa chắc đã là nguồn chính thống, ví dụ như cách viết sau: virus, vi-rút, vi rút, có thể 3 cách viết này đều xuất hiện trong 1 bài luận do AI viết, và AI không phân biệt được nên dùng nhất quán bởi vì cả 3 cách này đều phổ biến trên mạng. Sự tiến bộ của AI đồng nghĩa với cơ hội sáng tạo lớn, nhưng cũng đặt ra thách thức về đảm bảo tính chất lượng và đáng tin cậy của nội dung trong tương lai. Nội dung do AI tạo ra ngày càng tinh vi và khó phân biệt với nội dung do con người tạo ra, một nghiên cứu gần đây cho thấy rằng con người chỉ có thể phân biệt được nội dung do AI tạo ra hay nội dung do con người tạo ra với độ chính xác là 50%. Một nghiên cứu khác cho thấy rằng nội dung do AI tạo ra có thể bị ảnh hưởng bởi định kiến và thiên vị của dữ liệu huấn luyện. Ví dụ, một mô hình AI được huấn luyện trên dữ liệu văn bản từ các bài báo tin tức có thể tạo ra các bài viết có định kiến ​​đối với một nhóm người cụ thể. Điều này có thể dẫn đến những vấn đề về đạo đức, bản quyền và sự tin tưởng của người dùng.
Mất động lực học hỏi ngôn ngữ mới
Young teenage girl sitting bored while studying in front of laptop computer
Nếu AI có khả năng dịch thuật chính xác cho bất kỳ ngôn ngữ nào, liệu xu hướng học ngôn ngữ mới có bị thay thế? Suy nghĩ này không chỉ xuất hiện ở người lớn mà ngay cả một đứa trẻ 10 tuổi cũng đã nghĩ đến khi các phụ huynh yêu cầu con đi học ngoại ngữ và đứa trẻ phản hồi “Tại sao con phải học khi đã có các thiết bị dịch rồi?” Câu hỏi này không hề vô lý, ngay cả khi học một cách chăm chỉ, thường cần ít nhất một năm để có thể giao tiếp cơ bản. Sớm hay muộn, việc học một ngôn ngữ nước ngoài đạt đến trình độ chuyên nghiệp có thể trở thành một nhiệm vụ khó khăn không thể vượt qua. Đặc biệt nếu chúng ta phải cạnh tranh với những gì máy móc có thể cung cấp chỉ bằng một lần nhấn nút. Điều này có thể đồng nghĩa với việc việc học một ngôn ngữ thứ hai sẽ mất đi sự quan trọng và chỉ còn là một sở thích của một số người.
Thiếu hệ thống dữ liệu quy chuẩn dành cho ngành ngôn ngữ

Những yêu cầu ngày càng khắt khe từ từ phía khách hàng và người đánh giá ngày càng cao dẫn đến mong muốn có được một hệ thống dữ liệu ngôn ngữ tiếng Việt chuẩn và chi tiết trở nên càng cấp thiết hơn bao giờ hết. Hiện nay, chúng ta đang đối mặt với sự thiếu hụt nghiêm trọng các tài liệu chuẩn mực về ngôn ngữ ở dạng số hóa.

  • Từ điển tiếng Việt: Cơ sở tra cứu ở đơn vị từ phổ biến và được chấp thuận rộng rãi chính là từ điển Tiếng Việt do Hoàng Phê chủ biên, hiện có khoảng 50 nghìn từ. Mỗi năm chúng ta đón nhận không biết bao nhiêu từ mới khác và Viện Ngôn ngữ học đã cho công bố cuốn “Từ điển Từ mới tiếng Việt” (2002) với khoảng gần 2.000 từ (trong giai đoạn 1990-2000). Sau đó, Viện Từ điển học và Bách khoa thư Việt Nam lại tiếp tục khảo sát (trong một đề tài nghiên cứu) và bổ sung gần 1.000 đơn vị nữa (từ năm 2000-2010). Đấy là con số rất ấn tượng, nếu ta biết rằng, trong gần 100 năm Pháp thuộc, tiếng Việt chỉ bổ sung chừng trên 10.000 từ, trong đó đã có 2.000 từ gốc Pháp. Tuy nhiên, những số liệu quý giá này mới chỉ tồn tại ở dạng vật lý, còn chưa hề có dạng số hóa. Khi chúng ta muốn tra cứu trực tuyến thì lại là từ các nguồn chưa chính thống như Tra Từ Số hóa, http://vdict.co/, https://hvdic.thivien.net/, v.v.
  • Các tài liệu/quy định chính thống về các quy ước trong ngôn ngữ: Sách ngữ pháp cũng không có nhiều, nếu tìm kiếm cũng chỉ có những bản scan chất lượng kém và thường các tài liệu này không trực quan vì không thể tìm kiếm trực tiếp. Đa phần các sách hay tài liệu này đều không phải do các đơn vị có đủ thẩm quyền và uy tín cung cấp. Ngoài ra, gần đây có nhiều trang web được Việt hóa bằng máy, hoặc có nhiều bài viết trên trang web, diễn đàn sử dụng máy dịch, dẫn đến sự sai lệch trong ngôn ngữ.
Khó xây dựng AI Việt do đặc thù tiếng Việt
Thế giới đã ngập tràn các ứng dụng AI nhưng tại Việt Nam, số lượng công cụ AI do người Việt sáng tạo chỉ rất khiêm tốn, điều này bắt nguồn từ sự phức tạp về ngữ pháp, ngữ nghĩa, cách phát âm của tiếng Việt. Và khi AI Việt kém phát triển, nó sẽ kéo theo những khó khăn khác như khả năng phát triển về kinh tế, giao thương và sự hiệu quả trong công việc của nhiều ngành. Dưới đây là một số khó khăn khi áp dụng mô hình NLP để xây dựng AI:
  • Gắn nhãn từ loại (Part-Of-Speech Tagging): Trong mô hình NLP, gắn nhãn từ loại đề cập đến việc xác định ý nghĩa của một từ nhất định dựa trên loại từ và ngữ cảnh. Ví dụ hãy cùng phân tích câu: “Ông già đi nhanh quá”
  • Ông già: có thể có nghĩa là một người đàn ông lớn tuổi, hoặc cũng có thể là người con ám chỉ người bố, hoặc người nói ám chỉ về bố của một người bạn
  • “đi”: có nghĩa là một hành động miêu tả sự di chuyển nhưng cũng có nghĩa là “chết”
Câu này có thể diễn giải theo các cách sau:
  • Bố tôi mất nhanh quá
  • Bố tôi mất đột ngột quá
  • Ông ấy mất nhanh quá
  • Ông ấy đi vội vàng quá
  • Ông già ấy đi nhanh thế
Do đó AI rất khó xác định cách diễn đạt chính xác.
  • Phân loại từ (Word Segmentation): Sau khi gắn nhãn POS là thách thức của việc phân tích cú pháp đối với mô hình NLP bởi nó gắn liền với việc phân tích cấu trúc cú pháp của một câu. 'Cú pháp' đề cập đến sự sắp xếp ngữ pháp của các từ trong câu và mối quan hệ giữa chúng. Mục tiêu của phân tích cú pháp là tìm cấu trúc cú pháp của một câu, thường được biểu thị dưới dạng cây cấu trúc. Cấu trúc câu trong tiếng việt chủ yếu ở dạng Chủ ngữ + Động từ + Tân ngữ. Tuy nhiên, một số từ trong tiếng Việt được tách ra bằng dấu cách thực tế là một từ duy nhất, khiến việc dịch từ tiếng Anh sang tiếng Việt và ngược lại trở nên khó khăn hơn nhiều. Về khía cạnh ngôn ngữ học, mỗi chuỗi ký tự giữa hai dấu cách trong tiếng Việt không được xem xét là một từ vì nó vô nghĩa khi đứng một mình. Ví dụ, trong câu:
  • EN: Today is my birthday
  • VI: Hôm nay là sinh nhật của tôi
  • “Hôm nay”: 'hôm' và 'nay' không phải là hai từ riêng biệt, chúng cùng tạo thành một từ ‘hôm nay’, có nghĩa là 'today'. Tuy nhiên, 'hôm' và 'nay' vẫn có một số ý nghĩa riêng: 'hôm' - 'khoảng thời gian thuộc về một ngày', 'nay' - 'bây giờ'.
  • “Sinh nhật”: 'sinh' - 'tạo ra, làm nảy nở' và 'nhật' - 'ngày' cũng tạo thành từ 'sinh nhật' - 'birthday' nhưng chúng không phải là hai từ riêng biệt.
Đơn vị nhỏ nhất được xử lý trong Dịch máy thông minh (NMT) và Dịch máy (MT) là từ, do đó chúng ta phải đào tạo “bộ não” (tập dữ liệu) để nhận biết về từ. Điều này dẫn đến một bước tiếp theo chính là quá trình được gọi là “phân loại” (segmentation). Trong tiếng Việt, dấu cách giữa các từ không nhất định phải đóng vai trò phân tách các từ do đó áp dụng NMT cần nhiều thời gian đào tạo hơn các ngôn ngữ khác vì tiếng Việt là ngôn ngữ đơn tiếng, có các từ biến đổi và có đặc tính ngữ pháp riêng. Phân loại từ (WS) như đã được giải thích ở trên là bước đầu tiên trong quá trình dịch máy.
Sự phát triển của ngôn ngữ AI đã đưa chúng ta đến gần hơn với việc thu hẹp khoảng cách giữa con người và máy móc. Khả năng của máy móc trong việc hiểu và tạo ra ngôn ngữ giống con người đã mở ra những khả năng mới trong nhiều ngành công nghiệp khác nhau. Tuy nhiên, điều quan trọng là phải giải quyết các vấn đề đạo đức và đảm bảo sử dụng công nghệ ngôn ngữ AI một cách có trách nhiệm. Với việc tiếp tục nghiên cứu và phát triển, ngôn ngữ AI có tiềm năng cách mạng hóa cách chúng ta tương tác với máy móc và nâng cao cuộc sống hằng ngày của chúng ta. Để đối phó với những thách thức do sự phát triển của công nghệ AI, ngành ngôn ngữ cũng cần có những giải pháp phù hợp. Một số giải pháp có thể kể đến như:
Phát triển các kỹ năng và kiến thức mới cho con người
Các nhà ngôn ngữ cần phát triển các kỹ năng và kiến thức mới để đáp ứng yêu cầu của công việc trong thời đại mới. Các kỹ năng và kiến thức này bao gồm:
  • Kỹ năng sử dụng công nghệ AI một cách có trách nhiệm: Việc sử dụng một cách có trách nhiệm thể hiện qua việc hiểu rõ cách thức hoạt động của AI, những ưu điểm và hạn chế của AI để có thể đánh giá tác động của AI đối với các vấn đề xã hội, đạo đức, pháp lý. Từ đó có thể ứng dụng AI một cách hiệu quả và an toàn
  • Kỹ năng sáng tạo và tư duy để không bị phụ thuộc vào AI: Các nhà ngôn ngữ cần có khả năng phân tích và đánh giá thông tin một cách khách quan, tránh bị AI tác động. Đồng thời, rèn luyện kỹ năng sáng tạo và phát triển tư duy một cách độc lập để tạo ra các ý tưởng mới, độc đáo, cũng như giải quyết các vấn đề phức tạp mà AI không thể giải quyết được.
Nâng cao tính minh bạch và trách nhiệm của AI
Các nhà phát triển công nghệ AI cần nâng cao tính minh bạch và trách nhiệm của AI. Điều này sẽ giúp đảm bảo rằng AI được sử dụng một cách có đạo đức và trách nhiệm.
Ngoài ra, để phát triển ngành ngôn ngữ trong tương lai, cần có những giải pháp sau:
Có các quy định rõ ràng về ngôn ngữ
Các quy định này cần được xây dựng dựa trên các nguyên tắc khoa học và thực tiễn, và cần được phê duyệt và đăng tải trên các trang web chính thống của ngành như Viện ngôn ngữ, thư viện online, v.v. Các hướng dẫn và quy định này sẽ giúp người sử dụng ngôn ngữ có thể sử dụng ngôn ngữ một cách chính xác và hiệu quả trong từng lĩnh vực.
  • Nên có luật ngôn ngữ, vì luật này không chỉ xác lập một chủ quyền dân tộc trong lĩnh vực tiếng nói chữ viết của một quốc gia, mà còn là căn cứ quy định những vấn đề liên quan tới chính sách ngôn ngữ và các quyền cơ bản liên quan tới ngôn ngữ. Tuy nhiên trên thực tế còn rất nhiều vấn đề mà thực tiễn chưa đáp ứng được để xây dựng luật này, chẳng hạn như việc xử phạt khi không chấp hành quy định, chưa có cơ quan nào chịu trách nhiệm cho việc áp dụng hoặc sử dụng sai ngôn ngữ, hay những biện pháp nhằm đảm bảo sử dụng ngôn ngữ chuẩn mực thì cũng không có ai có thẩm quyền giám sát việc thực hiện những biện pháp này.
  • Để xây dựng được văn bản quy phạm pháp luật đáp ứng công việc của những người làm việc liên quan đến ngành ngôn ngữ cần những quy định phức tạp và cụ thể hơn rất nhiều, không chỉ là về việc sử dụng ngôn ngữ chuẩn mực về hình thức (đúng chính tả, đúng cách viết hoa, dùng từ vựng chuẩn, bảng chữ cái chuẩn, dấu câu chuẩn, v.v.), mà còn phải phù hợp với tình huống, hoàn cảnh, loại văn bản, v.v.. Chưa kể với ngành bản địa hóa, công việc của ngành này còn phải dựa vào các hướng dẫn, quy định riêng của khách hàng có thể khác với những chuẩn mực của ngôn ngữ bản địa, thì phải có những biện pháp thích ứng phù hợp.
  • Ngôn ngữ thường linh hoạt và hay thay đổi, do đó việc cập nhật những quy định này cho phù hợp nhất với thực tiễn cũng là một khó khăn. Việc tạo ra và chấp nhận một từ/cách diễn đạt mới cũng khó có thể được quy định rõ ràng vì khi một từ/cách diễn đạt mới trở thành xu hướng và phổ biến thì lẽ dĩ nhiên con người sẽ mặc nhiên chấp nhận và sử dụng thường xuyên hơn. Với sự phát triển của mạng xã hội ngày nay thì tình trạng này không còn hiếm lạ. Tóm lại, cần xem xét kỹ hơn về việc xây dựng luật này để tránh việc làm ra luật nhưng khó áp dụng, không sát với thực tiễn và còn gây khó khăn hơn trong quá trình làm việc của những người trong ngành ngôn ngữ.
Nghiên cứu hướng phát triển của AI để đưa vào chương trình giảng dạy
Các trường nên nghiên cứu hướng phát triển của AI để đưa thêm nội dung giảng dạy phù hợp với nhu cầu thực tế hiện nay: Hiện đã có một số trường đại học tại Việt Nam đưa nội dung đào tạo và nghiên cứu trong lĩnh vực ngôn ngữ tự nhiên và AI như ĐH Khoa học xã hội và nhân văn, ĐH Bách Khoa, ĐH Công nghệ thông tin, tuy nhiên nội dung và chương trình giảng dạy thường thiên về kỹ thuật hơn là ngôn ngữ. Chúng ta nên có những chương trình đào tạo chuyên sâu về ngôn ngữ hơn nữa hoặc có sự hợp tác giữa các khoa, ngành để đem đến hiệu quả cao nhất cho chương trình giảng dạy.
Vận dụng kiến thức cho các công việc xây dựng AI: Những người làm ngôn ngữ cần tận dụng kiến thức và sự hiểu biết của mình để phục vụ các công việc như:
Các quy định này cần được xây dựng dựa trên các nguyên tắc khoa học và thực tiễn, và cần được phê duyệt và đăng tải trên các trang web chính thống của ngành như Viện ngôn ngữ, thư viện online, v.v. Các hướng dẫn và quy định này sẽ giúp người sử dụng ngôn ngữ có thể sử dụng ngôn ngữ một cách chính xác và hiệu quả trong từng lĩnh vực.
  • Data Curation: Tạo và quản lý các bộ dữ liệu ngôn ngữ chất lượng cao.
  • Data Extraction: Tách lọc và trích xuất thông tin từ các nguồn dữ liệu ngôn ngữ.
  • Data Structures & Algorithms: Phát triển các cấu trúc dữ liệu và thuật toán để lưu trữ và xử lý dữ liệu ngôn ngữ.
  • Prompt Engineering & Fine Tuning: Thiết kế và tối ưu hóa các câu hỏi và phản hồi của AI.
Ví dụ, trong lĩnh vực dịch thuật tự động, những người làm ngôn ngữ có thể đóng góp bằng cách:
  • Tạo ra các bộ dữ liệu ngôn ngữ chất lượng cao để đào tạo các mô hình dịch thuật tự động.
  • Phát triển các thuật toán dịch thuật mới dựa trên kiến thức về ngôn ngữ.
  • Cải thiện khả năng học và sáng tạo ngôn ngữ của các mô hình dịch thuật tự động.
Cuối cùng, thành công luôn bắt nguồn từ tư duy đúng đắn. Điều quan trọng là chúng ta phải nhớ rằng có một lý do tại sao ngành ngôn ngữ vẫn tồn tại – và thậm chí phát triển – dù cho công nghệ luôn tiến hóa mạnh mẽ. Công nghệ AI và robot có thể tạo ra vô vàn sản phẩm trong nháy mắt, nhưng việc kết nối thực sự với người sử dụng lại chính là cảm xúc, đặc trưng không thể pha trộn và cá tính riêng. Hiểu được suy nghĩ của người dùng và tìm ra cụm từ hoàn hảo để truyền đạt một thông điệp là điều mà AI hay bất cứ một công nghệ hiện đại nào khác sẽ không thể thực hiện trong một thời gian dài nữa.
Đây chính là điều sẽ làm cho chúng ta khác biệt. Điều này sẽ đòi hỏi chúng ta không chỉ đào sâu nghiên cứu hơn trong mọi việc mà còn phải dành thời gian để tìm ra các ý tưởng sáng tạo, lựa chọn câu chữ sao cho truyền tải được thông điệp và cảm xúc nhằm chạm đến trái tim độc giả. Và cuối cùng, nó sẽ làm cho chúng ta trở nên con người hơn bao giờ hết.
PrevTrước
SauNext
  • Wisdom
  • Bài Viết, Bài viết chuyên môn
Đăng ký để xem thêm
Login
guest
guest
0 Comments
Oldest
Newest
Inline Feedbacks
View all comments

Tìm kiếm

Bài đăng gần đây

16/12/2024
Trăn trở về chất lượng dịch thuật
28/08/2024
TRANSCREATION
Project manager working at night
16/07/2024
Tuyệt chiêu chinh phục khách hàng từ vai trò Quản lý dự án

Chuyên mục

  • Chương trình thực tập
  • Khóa đào tạo
  • Bài viết chuyên môn
  • Đời sống

Xem thêm bài viết​

Shot of a group of businesspeople holding questions marks in front of their faces.

Trăn trở về chất lượng dịch thuật

  • Wisdom
  • 16/12/2024
  • Bài Viết

Trong ngành dịch thuật, bản địa hóa, vấn đề thường xuyên được bàn luận và gây đau đầu nhất chính là chất lượng. Với xu hướng ứng dụng AI trong...

transcreation

TRANSCREATION

  • Wisdom
  • 28/08/2024
  • Bài Viết, Bài viết chuyên môn
Dịch sáng tạo là một lĩnh vực đòi hỏi chúng ta phải sử dụng nhiều kỹ thuật xử lý ngôn ngữ, không chỉ chuyển ngữ thông thường mà còn phải...
Xem thêm

Đăng ký nhận tin tức và bài viết từ Wisdom

LOGO_REMAKE
Facebook-f Twitter Linkedin

© 2023 Dr.Localize Co., Ltd. All rights reserved.

wpDiscuz