Nhiều công nghệ ứng dụng xử lý ngôn ngữ tiếng nói Việt

Các công nghệ, giải pháp ứng dụng AI được nhiều nhóm nghiên cứu ứng dụng để xử lý tiếng nói có cảm xúc hơn có thể ứng dụng trả lời tự động, thuyết minh phim, đọc truyện.

Sáng 26/11 Câu lạc bộ Xử lý ngôn ngữ và tiếng nói tiếng Việt (VLSP) và Hội Tin học Việt Nam đã tổ chức hội thảo, tổng kết cuộc thi và trao giải cho các đội xuất sắc trong VLSP 2022.

TS Nguyễn Thị Minh Huyền, Trường ĐH Khoa học Tự nhiên, ĐHQG Hà Nội, Chủ tịch Câu lạc bộ VLSP, cho biết, VLSP 2022 đã tổ chức 7 cuộc thi về xử lý tiếng nói và văn bản. Trong đó gồm tổng hợp, nhận dạng tiếng nói, xác định người nói, phân tích cú pháp thành phần, tóm tắt đa văn bản, dịch máy Trung - Việt, hỏi đáp đa ngữ về nội dung ảnh.

Theo đó đội Speech World (VinBig Data) giành giải nhất với chiến thắng với mô hình dữ liệu chuyển đổi văn bản của cuộc thi tổng hợp tiếng nói có cảm xúc. Tổng hợp tiếng nói có cảm xúc (Emotional Speech Synthesis ESS) là hướng nghiên cứu cho phép tái tạo lại giọng nói của con người theo biểu cảm cảm xúc nhất định. Hướng nghiên cứu mở ra những ứng dụng có yêu cầu cao như thuyết minh/lồng tiếng phím, trợ lý ảo, kể chuyện. Các đội thi chinh phục 4 sắc thái cảm xúc phổ biến bao gồm trung lập (neutral), buồn (sad), vui (happy) và cáu giận (angry). Các nhóm nghiên cứu và phát triển hệ thống tổng hợp tiếng nói với các nhãn cảm xúc đầu vào, để đưa ra giọng nói đầu ra tương ứng với nhãn cảm xúc đó.

Xem thêm:

dsc09654-jpeg-1669450579-16694-9009-5936-1669451443-1669480361.jpg — Tác giả Nguyễn Văn Thịnh (thứ hai, trái sang) cùng các thành viên dự án Speech World nhận giải Nhất cuộc thi Tổng hợp tiếng nói có cảm xúc. Ảnh: Hoài Hương

Nguyễn Văn Thịnh, VinBig Data, đội trưởng Speech World cho hay nhóm nghiên cứu đưa ra mô hình sử dụng AI chuyển đổi văn bản thành tiếng nói có cảm xúc, ứng dụng trong phát triển trợ lý ảo, giúp đọc truyện, thuyết minh phim. Bắt đầu phát triển từ 2021, nhóm cải tiến và phát triển mô hình riêng phù hợp với giọng nói và ngôn ngữ của tiếng Việt. "Hiện công nghệ đã được hoàn thiện và bắt đầu chuyển giao đưa vào sản phẩm phẩm ứng dụng thực tế", Thịnh nói. Dự kiến tháng tới sẽ ra mắt khách hàng, đối tác trong việc xây dựng phát triển trợ lý ảo, tổng đài trả lời tự động có cảm xúc hơn.

Ở cuộc thi Xác minh người nói trong môi trường đa ngôn ngữ (Multi-lingual Speaker Verification - AMSV), giải pháp Voice Biometrics (giải pháp sinh trắc giọng nói) giành giải Nhất. Anh Vũ Gia Luyện, CEO công nghệ trẻ của Inter ITS, cho biết nhóm phát triển công nghệ dựa trên nhận dạng mẫu giọng nói để xác minh danh tính các cá nhân. Giọng nói có thể xác minh danh tính mỗi người vì đường âm (chất giọng) mỗi người là duy nhất. Dựa theo các đặc điểm vật lý, cả ngữ âm và hình thái giúp có thể chống được gian lận. Do đó công nghệ nhận dạng giọng nói cho phép mức độ bảo mật cao hơn hệ thống nhận dạng khác.

Hệ thống sinh trắc học giọng nói hoạt động bằng cách tạo ra bản in giọng nói hoặc mẫu lời nói của một người. Mẫu đăng ký có thể thu âm trực tiếp hoặc từ file ghi âm sẵn, sau đó hệ thống trích các đặc trưng giọng nói của người dùng và lưu hệ thống. Khi cần xác minh người dùng sẽ nói một câu và hệ thống sẽ xác minh được với mẫu đăng ký trong hệ thống để xác thực.

Nói với VnExpress, anh Luyện cho hay từ năm 2018 các nhóm nghiên cứu công nghệ của họ đã phát triển một hệ sinh thái sử dụng voice AI, trong đó ứng dụng trí tuệ nhân tạo trong các sản phẩm như Voice Biometrics, speech to text, text to speech (dùng trong báo nói, bóc băng hội thảo cuộc họp) hay ứng dụng call bot (tổng đài tư vấn viên ảo), thanh toán bằng giọng nói... Các giải pháp liên quan xử lý tiếng nói có thể ứng dụng trong nhiều ngành nghề như ngân hàng, hành chính công, tài chính thương mại điện tử.

dsc09682-jpeg-1669450764-16694-9241-8520-1669451443-1669480361.jpg — Anh Vũ Gia Luyện, công ty Inter ITS, cùng thành viên nhóm nhận giải Nhất. Ảnh: Hoài Hương

Nhiều giải pháp, công nghệ cũng được chia sẻ trong cuộc thi về xử lý văn bản như phân tích cú pháp thành phần, tóm tắt đa văn bản, dịch máy Trung - Việt. Đặc biệt hỏi đáp đa ngôn ngữ về nội dung ảnh (Multilingual Visual Question Answering) là bài toán nghiên cứu đa lĩnh vực: Xử lý ngôn ngữ tự nhiên và xử lý ảnh lần đầu tiên được giới thiệu tại VLSP 2022.

Tại sự kiện các nhà nghiên cứu và chuyên gia trong lĩnh vực nghiên cứu về xử lý tiếng nói và ngôn ngữ tiếng Việt cũng chia sẻ và thảo luận các kết quả nghiên cứu mới cũng như các giải pháp công nghệ ứng dụng trong lĩnh vực. Sự kiện do Viện Nghiên cứu Cao cấp về Toán phối hợp cùng Trường Đại học Khoa học Tự nhiên và Trường Đại học Công nghệ - ĐHQG Hà Nội cùng một số đơn vị tổ chức.

Bình luận