Tôi đang đọc bài viết này: dịch giả skype nơi họ sử dụng CD-DNN-HMM (Mạng lưới thần kinh sâu phụ thuộc bối cảnh với các mô hình Markov ẩn). Tôi có thể hiểu ý tưởng của dự án và kiến trúc mà họ đã thiết kế nhưng tôi không hiểu được những gì là senones . Tôi đã tìm kiếm một định nghĩa nhưng tôi không tìm thấy bất cứ điều gì
Cách chúng tôi đề xuất một mô hình phụ thuộc vào ngữ cảnh (CD) mới để nhận dạng giọng nói từ vựng lớn (LVSR), thúc đẩy những tiến bộ gần đây trong việc sử dụng các mạng niềm tin sâu sắc để nhận dạng điện thoại. Chúng tôi mô tả kiến trúc lai mô hình mạng nơ-ron ẩn sâu được đào tạo trước (DNN-HMM) đào tạo DNN để tạo ra sự phân phối trên các senones (trạng thái triphone bị ràng buộc) làm đầu ra của nó
Xin vui lòng nếu bạn có thể cho tôi một lời giải thích về điều này, tôi sẽ thực sự đánh giá cao nó.
BIÊN TẬP:
Tôi đã tìm thấy định nghĩa này trong bài báo này :
Chúng tôi đề xuất mô hình hóa các sự kiện ngữ âm với các trạng thái Markov và coi trạng thái đó trong các mô hình Markov ẩn ngữ âm như là đơn vị ngữ âm cơ bản của chúng tôi - senone . Một mô hình từ là một nối của nhà nước phụ thuộc vào senones và senones thể được chia sẻ qua các mô hình từ khác nhau.
Tôi đoán chúng được sử dụng trong phần Mô hình Markov ẩn của kiến trúc trong bài báo đầu tiên. Có phải họ là các tiểu bang của HMM? Đầu ra của DNN?