Google và thách thức từ... ngữ pháp tiếng Việt

Google News

Google vừa giới thiệu chức năng tìm kiếm bằng giọng nói dành riêng cho người Việt. Tuy nhiên, để có được sản phẩm này họ đã gặp không ít khó khăn từ ngữ pháp tiếng Việt.

Công cụ này được phát triển như thế nào?
Nối tiếp thành công từ việc ra mắt công cụ tìm kiếm bằng giọng nói dành riêng cho người Việt trên thiết bị chạy hệ điều hành Android. Google tiếp tục phát triển chức năng này trên máy tính thông qua việc tích hợp với trình duyệt Chrome.
 
Khi truy cập vào trang google.com.vn bằng trình duyệt Chrome. Chỉ cần cú nhấp chuột vào biểu tượng microphone, Google sẽ tiếp nhận giọng nói của bạn. Dĩ nhiên, bạn cần có sẵn một chiếc tai nghe có microphone được cài đặt phần mềm đầy đủ để sử dụng ngay lập tức. Sau đó, bạn chỉ cần cất giọng để đặt lệnh tìm kiếm.
Cô Army Kunrojpanya, trưởng phòng Đối ngoại và truyền thông, khu vực Mekong, trực thuộc Google Châu Á Thái Bình Dương chia sẻ: “Với niềm phấn khởi từ thành công của công cụ tìm kiếm bằng tiếng Việt. Chúng tôi tiếp tục phát triển công cụ tìm kiếm giọng nói trên máy tính thông qua trình duyệt Chrome. Google làm chương trình này với hy vọng nó sẽ thật sự mang lại hữu ích cho người Việt, vì giúp người dùng truy cập web dễ dàng và trực quan hơn”.
 
Mỗi khi tích hợp một ngôn ngữ mới bằng chức năng tìm kiếm bằng giọng nói, chúng tôi phải “dạy” máy tính cách hiểu âm và từ của ngôn ngữ được đối thoại. Việc này thực hiện bằng cách thu nhập các mẫu đối thoại của người bản xứ rồi làm “khuôn mẫu” cho các mẫu đối thoại đó.
Chức năng tra cứu giọng nói được Việt hóa khi bạn cài đặt phiên bản Chrome mới nhất 
Để chuẩn bị cho lần ra mắt này, chức năng tìm kiếm bằng giọng nói đã lấy mẫu từ 700 tình nguyện viên từ các trường Đại học thuộc khu vực Hà Nội và TP. Hồ Chí Minh, với tổng thời gian đối thoại lên đến 480 giờ.
Ngữ pháp Việt Nam là thử thách lớn
Để hoàn thành phiên bản lần này không gì khó khăn bằng việc phân biệt âm và ghi chép dấu ngữ điệu một cách chính xác. Ví dụ: từ “ca” (ngoài nghĩa là hát), khi được đánh dấu huyền còn có nghĩa là “cà” (trong rau quả) và thêm dấu sắc là thành “cá” (một loài động vật).
 
Sự đa dạng về âm điệu và giọng nói của người Việt (giọng Bắc, Nam, Trung) khiến đội ngũ thực hiện phải tăng gấp đôi số lượng mẫu âm thanh so với bất kỳ ngôn ngữ nào khác. Do đó, công cụ này có thể nhận được giọng nói của từng vùng miền dù không hoàn hảo 100%.
Nhưng quan trọng hơn là kho dữ liệu này sẽ được cải thiện nếu nhiều người sử dụng. Ngoài ra, các từ tiếng Việt khi viết ra thường có khoảng cách để phân biệt các âm tiết. Ngược lại, từ tiếng Anh chỉ xuất hiện dấu cách khi kết thúc một từ.
 Sinh viên khu vực Hà Nội và TP.HCM đã góp công rất lớn trong việc hoàn thiện chương trình này (Ảnh minh họa)
Một thách thức thú vị khác là một số người Việt thường không gõ dấu khi tìm kiếm (ví dụ như “pho” thay vì “phở”). Nên chúng tôi phải tạo ra một thuật toán đặc biệt để chương trình có thể tự động khôi phục trong kết quả tìm kiếm và người dùng sẽ thấy lỗi gõ thiếu dấu của mình tự động được sửa dưới dạng văn bản.
Theo Nhịp Cầu Đầu Tư

Bình luận(0)