Phát triển bộ dữ liệu tiếng Việt mã nguồn mở cho trí tuệ nhân tạo

22/03/2025

Dự án ViGen đang được triển khai nhằm xây dựng các bộ dữ liệu tiếng Việt mã nguồn mở, phục vụ cho việc đào tạo và đánh giá các mô hình trí tuệ nhân tạo (AI) tại Việt Nam. Mục tiêu của dự án là tạo ra một nguồn dữ liệu phong phú, giúp các ứng dụng AI hoạt động hiệu quả hơn trong bối cảnh ngôn ngữ và văn hóa Việt Nam.

Tại lễ công bố Thách thức Đổi mới sáng tạo 2025, đại diện Trung tâm Đổi mới sáng tạo Quốc gia (NIC) đã nhấn mạnh tầm quan trọng của việc phát triển lĩnh vực AI tại Việt Nam. Dự án ViGen được công bố như một phần trong nỗ lực này, với mục tiêu xây dựng các bộ dữ liệu tiếng Việt có quy mô lớn và chất lượng cao, phục vụ cho việc phát triển các mô hình AI.

Vai trò của bộ dữ liệu trong phát triển AI

Các bộ dữ liệu (dataset) đóng vai trò cực kỳ quan trọng trong việc phát triển các mô hình ngôn ngữ lớn (LLM). Chất lượng của dataset sẽ ảnh hưởng trực tiếp đến độ chính xác và hiệu quả của các mô hình AI. Một bộ dữ liệu phong phú và đa dạng sẽ giúp các mô hình này hiểu và xử lý ngôn ngữ tự nhiên một cách tự nhiên hơn, từ đó nâng cao giá trị thông tin mà chúng cung cấp.

Thách thức trong việc phát triển dữ liệu tiếng Việt

Ông Trần Việt Hùng, đồng sáng lập tổ chức AI for Vietnam, cho biết rằng mặc dù tiếng Việt có hơn 100 triệu người sử dụng, nhưng hiện tại, các mô hình ngôn ngữ lớn chủ yếu được đào tạo dựa trên chưa đến 1% dữ liệu tiếng Việt. Điều này dẫn đến việc các mô hình AI hiện tại chưa thể truyền tải đầy đủ giá trị của ngôn ngữ và văn hóa Việt Nam, làm giảm tính hữu dụng và hiệu quả của chúng.

Định hướng phát triển dự án ViGen

Dự án ViGen sẽ được triển khai trong ba năm, với mục tiêu hoàn thiện bộ dữ liệu vào năm 2025. Trong giai đoạn đầu, dự án sẽ tập trung vào việc xây dựng và phát triển bộ dữ liệu, sau đó sẽ tiến hành ứng dụng vào thực tiễn. Điều này không chỉ giúp nâng cao chất lượng các mô hình AI mà còn đảm bảo rằng chúng phù hợp với các giá trị văn hóa và tiêu chuẩn đạo đức của Việt Nam.

Hợp tác và hỗ trợ từ các đối tác

ViGen là kết quả của sự hợp tác giữa nhiều bên, bao gồm tập đoàn Meta, Trung tâm NIC và tổ chức AI for Vietnam. Trong đó, NIC đóng vai trò điều phối và đảm bảo dự án phù hợp với các mục tiêu quốc gia. Meta sẽ cung cấp hỗ trợ kỹ thuật và tài chính, đồng thời đóng góp các bộ dữ liệu mã nguồn mở từ các chương trình của mình. Sự tham gia của các đối tác chiến lược như Nvidia, Viettel và Viện Hàn lâm Khoa học và Công nghệ Việt Nam cũng sẽ góp phần quan trọng vào sự thành công của dự án.

Khả năng ứng dụng và tiềm năng phát triển

Ông Hùng nhấn mạnh rằng, với tốc độ phát triển nhanh chóng của AI, việc phát triển bộ dữ liệu tiếng Việt mã nguồn mở là rất cần thiết. Điều này sẽ giúp các dự án tiết kiệm thời gian và nguồn lực trong việc đào tạo và phát triển các mô hình AI. Sứ mệnh của ViGen là tạo ra các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện, từ đó mở khóa tiềm năng của các ứng dụng trí tuệ nhân tạo tại Việt Nam.

Định hướng tương lai cho AI tại Việt Nam

Giáo sư Yann LeCun, Kiến trúc sư trưởng về AI của Meta, đã đánh giá dự án ViGen không chỉ nhằm thúc đẩy công nghệ mà còn hướng tới việc xây dựng một tương lai AI toàn diện, tôn vinh và tích hợp di sản văn hóa và ngôn ngữ độc đáo của Việt Nam. Ông Võ Xuân Hoài, Phó giám đốc NIC, cũng nhấn mạnh rằng việc phát triển các tập dữ liệu quy mô lớn và chất lượng cao là ưu tiên cấp bách để đào tạo và đánh giá AI.

Chương trình Thách thức Đổi mới sáng tạo Việt Nam đã thu hút sự quan tâm lớn từ cộng đồng quốc tế, với hàng trăm giải pháp được gửi đến từ nhiều quốc gia. Để thành công, cần có sự hợp tác chặt chẽ giữa khu vực công, tư nhân và các đối tác trong và ngoài nước, nhằm hình thành và thực thi các sáng kiến đổi mới sáng tạo vì một Việt Nam thịnh vượng.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *