API Speech của Google có khả năng nói âm thanh thành khả năng văn bản bằng nhiều ngôn ngữ. Nó cũng hỗ trợ tiếng Thổ Nhĩ Kỳ. Ngôn ngữ đó rất thú vị, nó được gọi là agglutinative : bạn dán từng phần từ thay vì giới từ và các phần khác trong các ngôn ngữ như tiếng Anh. Điều này dẫn đến khá nhiều từ vựng kích thước không giới hạn.

Bạn có biết Google đã triển khai nhận dạng giọng nói tiếng Thổ Nhĩ Kỳ cho API của họ như thế nào không? Tôi không thể tin rằng họ đã sử dụng các kỹ thuật tương tự như trong tiếng Anh.

CẬP NHẬT

Dưới đây là bản sao ví dụ mà Google API đã trả về từ clip sau trên YouTube:

bạn sẽ phải hỏi anh ấy Tôi không có câu trả lời nào của Yahoo Tôi là Adam Scott thực sự trong Jumanji trong The Truman Show Tôi đã tra cứu anh ấy trên iTunes. tin rằng nó sẽ nghe Tôi không tham gia một trong những bộ phim đó nên vâng, bạn thực sự không nên * * * *

Tôi nghĩ đó là chất lượng tuyệt vời của phiên âm. Tôi đã sử dụng màn hình AudioEngine tuyệt đẹp của mình và đặt mic máy tính LabTec 20 năm tuổi tẻ nhạt trước nó. Một thiết lập thực sự nghiệp dư, nhưng đó là cách những thứ này sẽ được sử dụng trong thực tế, tức là trong tình huống ít hơn lý tưởng.

Đây là một ví dụ từ một cảnh phim Thổ Nhĩ Kỳ :

bây giờ tôi

Điều này về cơ bản là không thể hiểu được. Nó chọn một số từ ở đây và ở đó, nhưng thật khó để kết nối chúng không giống như trong ví dụ tiếng Anh.

Điều này có nghĩa là Google không sử dụng giải pháp tùy chỉnh cho tiếng Thổ Nhĩ Kỳ? Có lẽ họ muốn tái sử dụng các công cụ ngôn ngữ tiếng Anh của họ cho tiếng Thổ Nhĩ Kỳ?

Để cho vui, tôi đã gửi một clip từ người nói ngôn ngữ Azeri . Bài phát biểu của anh ấy được phát âm rõ ràng nhưng API hầu như không có một vài từ. Tôi đã sử dụng cài đặt tiếng Thổ Nhĩ Kỳ, vì vậy nó không công bằng, thực sự, nhưng các ngôn ngữ tương tự nhau:

o akşam ağlayan Doruk Sevgilin kim bu kim baktı Bülent Serttaş çok pis

speech-recognition

— Aksakal
nguồn

Một tìm kiếm Google Scholar scholar.google.com/... không tiết lộ nhiều mà đặc biệt đề cập đến những đặc thù của Thổ Nhĩ Kỳ, nhưng giấu đi trong việc tìm kiếm một số bài viết về nhận dạng giọng nói bằng ngôn ngữ-agnostic sử dụng máy học. Có vẻ hợp lý khi Google kết hợp một kỹ thuật để trích xuất âm vị một cách bất hợp lý với một phương pháp để phiên âm tương tự sang một ngôn ngữ cụ thể.

— Sycorax nói Phục hồi lại

Ngôn ngữ học.SE có thể hữu ích hơn ở đây, cụ thể là thẻ nhận dạng giọng nói của họ .

— Stephan Kolassa

(+1) Cũng có một câu hỏi xã hội học thú vị ở đây, trong chừng mực như trong kinh nghiệm của tôi, các kỹ sư / nhà nghiên cứu Thổ Nhĩ Kỳ đã thể hiện khá nhiều trong các nhóm nhận dạng giọng nói học máy hàng đầu trong ngành.

— Đức Hồng Y

Nếu bạn muốn so sánh tỷ lệ lỗi từ của các API khác nhau để nhận dạng giọng nói: github.com/Franck-Dernoncourt/ASR_benchmark

— Franck Dernoncourt

Những gì được sử dụng trong sản xuất thường không được tiết lộ. Tôi không biết Google tiết lộ hệ thống nhận dạng giọng nói tự động (ASR) hiện tại mà họ sử dụng sản xuất hoạt động như thế nào. Một cách để ước tính nó sẽ là quét ICASSP / Interspeech / vv. tố tụng cho các ấn phẩm của Google.

Dù sao, đặt Google sang một bên: câu hỏi có thể được khái quát là " Làm thế nào để thực hiện ASR bằng các ngôn ngữ có từ điển lớn hoặc kết thúc mở? ".

Một cách để làm như vậy là sử dụng mô hình ngôn ngữ từ phụ , ví dụ từ {1}:

Tóm tắt: Trong nghiên cứu này, một số giải pháp cho vấn đề từ vựng (OOV) của hệ thống nhận dạng giọng nói tự động (ASR) được phát triển cho các ngôn ngữ kết tụ như tiếng Thổ Nhĩ Kỳ, đã được kiểm tra và cải thiện vấn đề này. Nó đã được chỉ ra rằng việc sử dụng các mô hình ngôn ngữ từ phụ vượt trội hơn các mô hình dựa trên từ bằng cách giảm tỷ lệ từ OOV trong các ngôn ngữ có hình thái phức tạp.

hoặc từ {2}:

Tóm tắt: Các nghiên cứu nhận dạng giọng nói của Thổ Nhĩ Kỳ đã được tăng tốc gần đây. Với những nỗ lực này, không chỉ các bài phát biểu và văn bản có sẵn có thể được sử dụng trong các thí nghiệm nhận dạng mà còn đề xuất các phương pháp mới để cải thiện độ chính xác đã tăng lên. Bản chất kết tụ của tiếng Thổ Nhĩ Kỳ gây ra vấn đề từ vựng (OOV) trong các nhiệm vụ Nhận dạng giọng nói liên tục từ vựng lớn (LVCSR). Để khắc phục vấn đề OOV, việc sử dụng các đơn vị từ phụ đã được đề xuất. Ngoài các thí nghiệm LVCSR, đã có một số nỗ lực để triển khai bộ nhận dạng giọng nói trong các lĩnh vực hạn chế như X quang. Trong bài báo này, chúng tôi sẽ trình bày phần mềm nhận dạng giọng nói của Thổ Nhĩ Kỳ, được phát triển bằng cách sử dụng các nghiên cứu gần đây. Cả hai giao diện của phần mềm và độ chính xác nhận dạng trong hai bộ thử nghiệm khác nhau sẽ được tóm tắt. Hiệu suất của phần mềm đã được đánh giá bằng cách sử dụng X quang và các bộ kiểm tra từ vựng lớn. Để giải quyết vấn đề OOV thực tế, chúng tôi đề xuất điều chỉnh các mô hình ngôn ngữ bằng cách sử dụng các từ hoặc câu thường xuyên. Trong các thí nghiệm công nhận, độ chính xác từ 90% và 44% đã đạt được trong các bài kiểm tra X quang và từ vựng lớn tương ứng.

Người giới thiệu:

{1} Akın, Ahmet Afşın, Cemil Demir và Mehmet Uğur Doğan. "Cải thiện mô hình ngôn ngữ từ phụ để nhận dạng giọng nói Thổ Nhĩ Kỳ." Trong Hội nghị Ứng dụng Truyền thông và Xử lý Tín hiệu (SIU), ngày 20, trang 1-4. IEEE, 2012. https://scholar.google.com/scholar?cluster=8818380122461969221&hl=en&as_sdt=0,5 ; http://ieeexplore.ieee.org/abab/document/6204752/
{2} Buyuk, Osman, Ali Haznedaroglu và Levent M. Arslan. "Phần mềm nhận dạng giọng nói Thổ Nhĩ Kỳ với mô hình ngôn ngữ thích ứng." Trong các ứng dụng xử lý tín hiệu và truyền thông, năm 2007 SIU 2007. IEEE 15th, trang 1-4. IEEE, 2007 https://scholar.google.com/scholar?cluster=17945910226656308345&hl=vi&as_sdt=0,5 ; http://ieeexplore.ieee.org/abab/document/4298561/

— Franck Dernoncourt
nguồn

Điều này thật thú vị, cảm ơn, sẽ xem xét các tài liệu tham khảo

— Aksakal

Nhận dạng giọng nói tiếng Thổ Nhĩ Kỳ (speech-> văn bản) trong Google Speech API? [đóng cửa]

CẬP NHẬT