Nhận dạng mẫu cho dữ liệu tạm thời

9

Tôi đang cố gắng phát hiện và phân loại âm thanh không nói. Hiện tại, tôi đang sử dụng một loạt các phổ công suất di chuyển chồng chéo từ âm thanh đào tạo như các tính năng tôi đang tìm kiếm.

Khi tôi phân tích, tôi chỉ tính toán cùng một lượng phổ chồng chéo để số lượng các tính năng là như nhau. Ngay bây giờ hiệu suất không được tốt lắm, nó chỉ có thể phát hiện sự im lặng và không im lặng.

Những kỹ thuật nào cho loại phát hiện tín hiệu này? Một trong những mối quan tâm của tôi là đối với các âm thanh có độ dài khác nhau trong miền thời gian sẽ dẫn đến các vectơ đặc trưng có độ dài khác nhau, do đó tôi không thể sử dụng cùng một trình phân loại, tôi bị mắc kẹt trong vấn đề này.

audio

— cufmo
nguồn

3

Bạn đang cố gắng phát hiện lời nói và không nói, hoặc có những lớp âm thanh không nói mà bạn đang cố gắng phân biệt? Tôi không rõ ràng từ câu hỏi của bạn.

Tôi nghĩ rằng cách tiếp cận đầu tiên hợp lý sẽ là chặn tín hiệu của bạn vào các khung và tính toán các hệ số cepstral Mel-Tần số (MFCC), cũng như các MFC-delta (sự khác biệt giữa MFCC của khung liền kề) và MFCC delta-delta (sự khác biệt giữa MFCCs trong các khung cách nhau hai khung). Đây không phải là cách duy nhất để làm điều đó, nhưng không có kiến thức cụ thể hơn về miền vấn đề, đây có lẽ là một nơi tốt để bắt đầu.

Chỉ cần googling sẽ cung cấp cho bạn một số tài liệu tham khảo tốt về cách tính toán MFCC nếu bạn chưa quen với chúng. Về cơ bản, bạn lấy DFT, lấy độ lớn, tính năng lượng bên trong các cửa sổ hình tam giác tương ứng với thính giác của con người, lấy DCT của các hệ số này, về cơ bản là một bước nén, sau đó loại bỏ các hệ số bậc cao, thường chỉ lấy khoảng mười hai hệ số đầu tiên . Tôi có một lời giải thích về ý nghĩa của bước DCT trong bài viết này: Làm thế nào để tôi diễn giải bước DCT trong quy trình trích xuất MFCC?

Sau đó, bạn có thể sử dụng các hệ số này làm các tính năng cho một SVM.

— hầm cầu
nguồn

2

Tôi nghĩ rằng bạn thường nhìn vào một vấn đề phát hiện lời nói , đã tồn tại mãi mãi và có vô số phương pháp để thực hiện điều này cho đến nay. Có vẻ như bài báo này , ví dụ, cũng sử dụng các kỹ thuật quang phổ, vì vậy bạn có thể muốn bắt đầu từ đó. Một tìm kiếm cũ của Google sẽ trả về nhiều kết quả với các liên kết đến bài viết và bài viết.

Nói chung có hai cách tiếp cận hơi khác biệt để phát hiện lời nói. Một cho phép giả định tỷ lệ tiếng nói tốt (giọng nói to hơn tiếng ồn xung quanh, âm nhạc, nội dung không liên quan khác), và người kia không đưa ra giả định nào và cố gắng xác định sự hiện diện của giọng nói trong các tín hiệu rất ồn (lời nói bị chôn vùi tiếng ồn). Tùy thuộc vào việc bạn đang cố gắng làm gì, cuối cùng bạn sẽ xem xét các loại giấy tờ rất khác nhau. Có lẽ nếu bạn làm rõ câu hỏi của mình một chút và giải thích chi tiết về các loại tín hiệu giọng nói bạn đang làm việc, trang web này có thể giúp ích nhiều hơn.

— Phonon
nguồn