Ngày 26/11/2022 hội thảo thường niên về xử lý ngôn ngữ và tiếng nói tiếng Việt diễn ra tại Viện nghiên cứu cao cấp về Toán. Hội thảo được tổ chức bởi Câu lạc bộ Xử lý ngôn ngữ và tiếng nói tiếng Việt (VLSP), Hội Tin học Việt Nam.

Hội thảo còn có sự tham gia của Trường ĐH Khoa học Tự nhiên và Trường ĐH Công nghệ (ĐHQG Hà Nội), Trường ĐH Công nghệ thông tin thuộc ĐHQG TP. Hồ Chí Minh, Trường ĐH Bách khoa Hà Nội, Trường ĐH Thủy lợi, Trường ĐH Khoa học và Công nghệ HN, Trung tâm Từ điển Vietlex, Viện Công nghệ thông tin thuộc Viện Hàn lâm KH&CN Việt Nam.

Trong những năm gần đây việc ứng dụng trí tuệ nhân tạo (AI) trong các ngành kỹ thuật nói chung và ngành xử lý ngôn ngữ nói riêng đạt nhiều kết quả rất ấn tượng, mang tính đột phá. Nhận dạng tiếng nói, trong đó có nhận dạng tiếng nói tiếng Việt có những bước tiến vượt bậc.

TS. Nguyễn Thị Thu Trang, giảng viên Trường Công nghệ thông tin và Truyền thông (Trường Đại học Bách Khoa Hà Nội) cho biết, nếu 5 năm trước, công nghệ nhận dạng giọng nói mới chỉ manh nha ở Việt Nam thì 3 năm trở lại đây công nghệ tiếng nói, gồm tổng hợp tiếng nói, nhận diện tiếng nói, nhận diện người nói… đã được áp dụng phổ biến ở nhiều lĩnh vực. Tiêu biểu nhất là tổng đài ảo, thay vì sử dụng tổng đài viên là người thật để trực điện thoại, tiếp nhận phản hồi của khách hàng thì các doanh nghiệp, đơn vị cung cấp dịch vụ đã sử dụng tổng đài nhân tạo.

“Tổng đài ảo có thể chưa trao đổi thông tin quá phức tạp nhưng với những thông tin được lặp đi lặp lại thì hoàn toàn có thể sử dụng tổng đài viên ảo để giảm nhân lực, để con người làm những công việc phức tạp hơn. Ví dụ việc xác nhận đơn hàng hoàn toàn có thể sử dụng tổng đài ảo để thông báo tới khách hàng”, TS. Nguyễn Thị Thu Trang nói.

Trong khuôn khổ của Hội thảo đã diễn ra 7 cuộc thi về xử lý tiếng nói và xử lý văn bản gồm: Tổng hợp tiếng nói; Nhận dạng tiếng nói; Xác minh người nói; Phân tích cú pháp thành phần; tóm tắt đa văn bản, dịch máy Trung – Việt; Hỏi đáp đa ngữ về nội dung ảnh.

TS. Nguyễn Thị Minh Huyền, Khoa Toán-Cơ-Tin học (Trường ĐH Khoa học Tự nhiên, ĐHQG Hà Nội) cho biết những tiến bộ ứng dụng trí tuệ nhân tạo trong nhận dạng tiếng nói tiếng Việt đang được triển khai trong nhiều lĩnh vực khác nhau như lồng tiếng phim tự động, đọc truyện tự động, đọc báo, tổng đài tự động…

“Hội thảo xử lý ngôn ngữ và tiếng nói tiếng Việt năm nay thông qua các cuộc thi về tổng hợp tiếng nói; Nhận dạng tiếng nói; Xác minh người nói; Phân tích cú pháp thành phần; tóm tắt đa văn bản, dịch máy Trung – Việt… đặt ra một yêu cầu cao hơn về xử lý ngôn ngữ đó là giọng đọc có cảm xúc. Ví dụ lồng tiếng phim tự động, “máy nói” sẽ có cảm xúc hơn để tạo hiệu quả trong tiếp nhận nội dung”, TS. Nguyễn Thị Minh Huyền chia sẻ.

Tổng hợp tiếng nói có cảm xúc được xem là một hướng nghiên cứu với nhiều thách thức, cho phép tái tạo lại giọng nói của con người theo biểu cảm cảm xúc nhất định. Hướng nghiên cứu này mở ra những ứng dụng có nhu cầu cao như thuyết minh/lồng tiếng phím, trợ lý ảo, kể chuyện…

Các đội thi sẽ chinh phục 4 sắc thái cảm xúc phổ biến bao gồm trung lập, buồn, vui và cáu giận. Các đội cần nghiên cứu và phát triển hệ thống tổng hợp tiếng nói với các nhãn cảm xúc đầu vào, để đưa ra giọng nói đầu ra tương ứng với nhãn cảm xúc đó.

Trong khi đó, TS. Đỗ Văn Hải (Trường Đại học Thuỷ lợi), cho biết, trong 3 năm qua để thích ứng đại dịch Covid-19, hệ thống các cơ sở giáo dục xây dựng một kho khổng lồ các video bài giảng trực tuyến. Nhu cầu tự động phân loại, đánh chỉ mục, tìm kiếm nội dung kho bài giảng là rất lớn. Đề thi xử lý tiếng nói và xử lý văn bản năm nay đã mô tả các bài toán trong thực tế, khi mà dữ liệu gắn nhãn thường ít và rất đắt đỏ, trong khi dữ liệu âm thanh thô thì dễ dàng thu thập hơn rất nhiều. Sử dụng công nghệ nhận dạng tiếng nói với độ chính xác cao để chuyển những video đó ra văn bản là bài toán giải quyết được nhu cầu này.

Riêng đối với việc dịch máy, theo TS. Nguyễn Văn Vinh (Trường ĐH Công nghệ, ĐHQG Hà Nội) đây là một bài toán quen thuộc trong xử lý ngôn ngữ tự nhiên. Tuy nhiên cho đến nay các nghiên cứu trong lĩnh vực này vẫn rất sôi động vì độ khó của bài toán. Cuộc thi Dịch máy năm nay tập trung vào bài toán dịch theo hai chiều, dịch máy Trung Việt và Việt Trung.

Các đội thi đến từ các trường đại học, viện nghiên cứu trong và ngoài nước, các tập đoàn, công ty công nghệ… đã đưa ra nhiều giải pháp để nâng cao hơn nữa công nghệ tổng hợp tiếng nói, nhận diện tiếng nói, đặc biệt nhiều đội đã có những giải pháp về công nghệ, thuật toán để tăng sắc thái cảm xúc cho các "máy nói" tự động.

Kết quả, đội thi của Trung tâm Không gian mạng Viettel đoạt giải Nhất cho hạng mục Nhận dạng tiếng nói; Đội thi của VinBigData đoạt giải Nhất hạng mục Tổng hợp tiếng nói; Đội thi của Trường ĐH Stanford đoạt giải Nhất hạng mục phân tích cú pháp thành phần tiếng Việt;

Đội thi Inter ITS JSC và Đại học Thái Nguyên đoạt giải Nhất hạng mục xác minh người nói các ngôn ngữ châu Á; Đội thi CMC Applied Technology Institute, CMC Corporation đoạt giải Nhất hạng mục Hỏi đáp đa ngữ về nội dung ảnh; Đối với hạng mục dịch máy giải Nhất thuộc về đội thi Samsung SDS R&D Center…