Tôi đang nghiên cứu nhận dạng giọng nói, đặc biệt là việc sử dụng MFCC để trích xuất tính năng. Tất cả các ví dụ tôi đã tìm thấy trực tuyến có xu hướng vẽ biểu đồ một loạt MFCC được trích xuất từ một cách nói cụ thể như sau (biểu đồ được tạo bởi tôi từ phần mềm tôi đang viết):
Như bạn có thể thấy trong biểu đồ trên:
- các trục x được sử dụng cho mỗi người trong số các hệ số MFC (1-12 trong ví dụ này)
- các trục y được sử dụng cho các giá trị của các hệ số (dao động aprox từ -12 đến 42 trong ví dụ này)
- bạn có nhiều dòng như khung hoặc vectơ đặc trưng mà bạn đã trích xuất (140 trong ví dụ này).
Bây giờ, điều này không có ý nghĩa quá lớn đối với tôi, bởi vì những gì chúng ta đang thấy ở đây, là sự chồng chất của tất cả các vectơ đặc trưng cùng một lúc, làm mất bất kỳ thông tin thời gian nào. Tôi đang có một thời gian khó khăn để hiểu làm thế nào đại diện này là hữu ích.
Trong tâm trí của tôi, tôi sẽ đại diện cho các vectơ được trích xuất như sau (một lần nữa, biểu đồ được tạo bởi tôi):
Trong biểu đồ trên:
- các trục x là khung hoặc vector số (từ 1 đến 140)
- các trục y là các giá trị hệ số (một lần nữa, từ -12 đến 42 aprox)
- bạn có một dòng cho mỗi tính năng (12).
Đối với tôi, cách trình bày này sẽ hữu ích hơn vì bạn có thể thấy sự tiến hóa theo thời gian của từng tính năng cụ thể và trong suy nghĩ của tôi sẽ có tác động mạnh mẽ hơn đến cách áp dụng thuật toán so sánh trên các từ được nói.
Có thể hai biểu diễn có giá trị như nhau và hữu ích cho các mục đích khác nhau, rất giống như khi bạn cần nghiên cứu tín hiệu trong miền thời gian hoặc trong miền tần số, nhưng trong trường hợp nhận dạng giọng nói, tôi sẽ mong đợi sự tiến hóa theo thời gian của từng cá nhân tính năng có ý nghĩa hơn mật độ của các giá trị cho mỗi tính năng (và có lẽ tôi hoàn toàn sai: P).
Vì vậy, hai câu hỏi trong thực tế:
- Tại sao đại diện đầu tiên dường như được sử dụng rộng rãi mà không phải là đại diện thứ hai?
- Khi bạn muốn so sánh hai bộ MFCC được trích xuất, ví dụ bằng cách sử dụng Độ cong thời gian động - DTW và liên quan đến chủ đề này, bạn có so sánh các vectơ đặc trưng (ví dụ 140 vectơ của 12 tính năng) hoặc các khung (12 vectơ của 140 khung hình )? (nói cách khác, MxN hoặc NxM?)
Cảm ơn!