Các senones trong một mạng lưới thần kinh sâu là gì?

9

Tôi đang đọc bài viết này: dịch giả skype nơi họ sử dụng CD-DNN-HMM (Mạng lưới thần kinh sâu phụ thuộc bối cảnh với các mô hình Markov ẩn). Tôi có thể hiểu ý tưởng của dự án và kiến trúc mà họ đã thiết kế nhưng tôi không hiểu được những gì là senones . Tôi đã tìm kiếm một định nghĩa nhưng tôi không tìm thấy bất cứ điều gì

Cách chúng tôi đề xuất một mô hình phụ thuộc vào ngữ cảnh (CD) mới để nhận dạng giọng nói từ vựng lớn (LVSR), thúc đẩy những tiến bộ gần đây trong việc sử dụng các mạng niềm tin sâu sắc để nhận dạng điện thoại. Chúng tôi mô tả kiến trúc lai mô hình mạng nơ-ron ẩn sâu được đào tạo trước (DNN-HMM) đào tạo DNN để tạo ra sự phân phối trên các senones (trạng thái triphone bị ràng buộc) làm đầu ra của nó

Xin vui lòng nếu bạn có thể cho tôi một lời giải thích về điều này, tôi sẽ thực sự đánh giá cao nó.

BIÊN TẬP:

Tôi đã tìm thấy định nghĩa này trong bài báo này :

Chúng tôi đề xuất mô hình hóa các sự kiện ngữ âm với các trạng thái Markov và coi trạng thái đó trong các mô hình Markov ẩn ngữ âm như là đơn vị ngữ âm cơ bản của chúng tôi - senone . Một mô hình từ là một nối của nhà nước phụ thuộc vào senones và senones thể được chia sẻ qua các mô hình từ khác nhau.

Tôi đoán chúng được sử dụng trong phần Mô hình Markov ẩn của kiến trúc trong bài báo đầu tiên. Có phải họ là các tiểu bang của HMM? Đầu ra của DNN?

— davidivad
nguồn

Một senone là một thuật ngữ nhận dạng giọng nói. Đó có phải là định nghĩa bạn đang tìm kiếm, hoặc làm rõ về cách họ được mô hình hóa trong bài báo đó?

— Sean Easter

Giống như ứng dụng của DNN-HMM sau đó. Chúng là các trạng thái trong HMM nhưng cũng là đầu ra của DNN?

— davidivad

1

Bài viết này mô tả senones trong một số chi tiết ... cmusphinx.sourceforge.net/wiki/tutorialcon accept

— Mike Hunter

7

Đây là những gì cuối cùng tôi đã hiểu:

Trong kiến trúc này, DNN được sử dụng để biến tiếng ồn thành điện thoại.

Trong ngữ âm và ngôn ngữ học, điện thoại từ có thể đề cập đến bất kỳ âm thanh hoặc cử chỉ lời nói nào được coi là một sự kiện vật lý mà không liên quan đến vị trí của nó trong âm vị học của ngôn ngữ.

Lớp cuối cùng của DNN được hình thành bởi tất cả các điện thoại sở hữu, có một nơron đầu ra trên mỗi điện thoại. Việc kích hoạt các nơ-ron này là xác suất của tiếng ồn đầu vào tương ứng với điện thoại đó.

Sự kết hợp của các kích hoạt này là đầu vào của Mô hình Markov ẩn và thiết lập các sen của HMM, trong đó có được một danh sách các văn bản ứng cử viên bằng từ điển.

Các senones là trạng thái của HMM, trong hình ảnh sau đây, các senones sẽ là x1 x2 và x3.

Xin hãy sửa tôi nếu tôi nói điều gì đó sai, hy vọng nó có ích!

— davidivad
nguồn

1

@daviddavid, tôi đã thêm một câu trả lời sẽ giải thích rõ hơn một chút về senone là gì. Toàn bộ điều mô hình senone / acoustic là một chút lộn xộn trong văn học.

— Emiswelt

2

Trong Nhận dạng giọng nói, chúng tôi thường bao gồm một số bối cảnh về các điện thoại lân cận khi tạo mô hình một điện thoại nhất định. Điều này có nghĩa rằng hệ thống của chúng tôi không chỉ biết điện thoại cho A, Bvà như vậy, nhưng thay vào đó có một khái niệm cho E-then-A, O-then-B, X-then-Avà vân vân.

Các đơn vị phụ thuộc vào bối cảnh này được gọi là senones trong văn học , tất nhiên đó là một từ tạo thành.

Đối với các hệ thống nhận dạng giọng nói, các senon này thường bằng trạng thái HMM của mô hình âm thanh, có thể dự đoán bằng mạng thần kinh, nếu sử dụng phương pháp lai DNN / HMM cho mô hình âm thanh.

Thuật ngữ Senones được đặt ra bởi các nhà phát triển bộ công cụ nhận dạng giọng nói Janus. Sau đó, nó đã được Dong Yu và Li Đặng nhận nuôi cho cuốn sách ASR của họ. Đó là vào thời gian trước khi NN được sử dụng cho mô hình âm thanh. Do đó, thuật ngữ này là khó hiểu.

— Emiswelt
nguồn

1

"Senones" được tôi đặt tên vào năm 1992. Xem bài báo ICASSP 1992 của tôi: https://ieeexplore.ieee.org/document/225979 Nó chỉ là một cái tên lạ mắt cho một cụm các quốc gia Markov được chia sẻ, đại diện cho các sự kiện âm thanh tương tự. Nó xuất phát từ sự tương phản với các fenones của IBM, trong đó "f" có nghĩa là "khung" và "s" của tôi có nghĩa là "trạng thái".

— Mei-Yuh Hwang
nguồn

vui lòng thêm tham chiếu đầy đủ cho liên kết của bạn trong trường hợp nó chết trong tương lai

— Antoine

0

Ý tưởng ban đầu xuất phát từ công việc Eurospeech năm 1991 của tôi (bây giờ được gọi là Interspeech), nơi tôi đã sử dụng phân cụm từ trên xuống trên các bang Markov. Bạn có thể tìm thấy báo cáo công nghệ CMU của tôi vào năm 1991 tại đây: https://www.semanticscholar.org/apers/Shared-distribution-hidden-Markov-models-for-speech-Hwang-Huang/33ea989f1655636162b7e9b8e0c3c3c

Vào năm 1992, tôi quyết định chuyển nó sang cụm cây để người ta có thể mô hình hóa các điện thoại cd không nhìn thấy.

— Mei-Yuh Hwang
nguồn

vui lòng thêm tham chiếu đầy đủ cho liên kết của bạn trong trường hợp nó chết trong tương lai

— Antoine