MFCC có phải là phương pháp tối ưu để thể hiện âm nhạc cho hệ thống truy xuất không?

Một kỹ thuật xử lý tín hiệu, Cepstrum tần số Mel , thường được sử dụng để trích xuất thông tin từ một bản nhạc để sử dụng trong một nhiệm vụ học máy. Phương pháp này đưa ra phổ công suất ngắn hạn và các hệ số được sử dụng làm đầu vào.

Trong thiết kế hệ thống truy xuất âm nhạc, các hệ số như vậy được coi là đặc trưng của một bản nhạc (rõ ràng không nhất thiết phải là duy nhất, nhưng phân biệt). Có đặc điểm nào phù hợp hơn với việc học với mạng không? Các đặc điểm thay đổi theo thời gian như tiến trình âm trầm của bản nhạc được sử dụng trong một cái gì đó như mạng Elman sẽ hoạt động hiệu quả hơn?

Những đặc điểm nào sẽ tạo thành một tập hợp đủ rộng để phân loại có thể diễn ra?

— jonsca
nguồn

Bạn đang làm việc về phục hồi, nơi bạn đang tìm kiếm những phẩm chất độc đáo của một clip âm thanh cụ thể? hoặc bạn muốn xác định âm nhạc tương tự?

— Andrew Rosenberg

@AndrewRosenberg Thêm dọc theo dòng xác định âm nhạc tương tự.

— jonsca

(Nhiều năm sau), có nhiều cách để mày mò với MFCC; Kinunnen và cộng sự, Xác nhận tần số cong vênh và loa mạnh mẽ: So sánh các đại diện quy mô Mel thay thế 2013, 5p, sử dụng 60 hệ số. Và, tối ưu hóa những gì? Trên cơ sở dữ liệu không mở nào? Vì vậy, tôi muốn nói (không phải chuyên gia) rằng câu hỏi quá rộng để có thể trả lời được.

— chối

@denis Cảm ơn thông tin. Điều này xuất phát từ bản Beta Machine Learning xấu số (lần đầu tiên xuất hiện). Tôi đánh giá cao rằng nó là một chút mơ hồ.

— jonsca

Chúng tôi đã làm một chút về việc này tại một thời điểm. Tập hợp các tính năng chúng tôi trích xuất được đưa ra trong tài liệu hội thảo NIPS này . Tôi phải thừa nhận rằng chúng tôi không thể sao chép kết quả của một số tác giả khác trong lĩnh vực này, mặc dù có một số nghi ngờ về các bộ dữ liệu được sử dụng trong đó (lưu ý rằng các bộ dữ liệu được sử dụng bởi các tác giả trong lĩnh vực này có xu hướng được chọn bằng tay và không được phát hành với công chúng, vì lý do bản quyền, mặc dù điều này không phải lúc nào cũng đúng). Về cơ bản chúng đều là các tính năng phổ ngắn hạnvới các hệ số tự động được ném vào quá. Chúng tôi đã xem xét phân loại thể loại mà chúng ta biết có thể được thực hiện bởi con người (mặc dù không có độ chính xác tuyệt vời và không có thỏa thuận nhất quán ....) trong khoảng thời gian rất ngắn (<1s), xác nhận việc sử dụng các tính năng ngắn hạn . Nếu bạn thích làm những việc phức tạp hơn so với phân loại thể loại / nghệ sĩ / album / nhà sản xuất điển hình thì bạn có thể cần nhiều tính năng tầm xa hơn, nếu không, các tính năng phổ ngắn hạn này có xu hướng hoạt động tốt nhất.

— tdc
nguồn

Mục đích của việc ném vào các hệ số AR là gì?

— jonsca

@jonsca Vì chúng tôi đang sử dụng các phương pháp thúc đẩy, hoạt động bằng cách kết hợp nhiều người học "yếu", chúng tôi quyết định sử dụng bất kỳ tính năng nào có thể dễ dàng tính toán có thể mang lại một số lợi ích. Tất cả những gì được yêu cầu của một người học yếu để nó hữu ích là nó có thể phân loại ở mức cao hơn mức cơ hội. Các hệ số AR tương đương với độ nén của đường bao quang phổ, điều này mang đến một số khái niệm về độ phức tạp thông tin ngắn hạn của âm nhạc trong cửa sổ đó, mặc dù chỉ rất lỏng lẻo.

— tdc

@tdc, "bộ dữ liệu có xu hướng không được phát hành ra công chúng ...": bạn có biết bất kỳ bộ dữ liệu trực tuyến miễn phí nào về lời nói, với âm vị được dán nhãn không?

— chối

@denis người duy nhất tôi biết là cái này: cam.biolab.si/datasets/phoneme.htmlm

— tdc

@tdc, cảm ơn, nhưng đó chỉ là 11 nguyên âm từ các yếu tố học tập thống kê, ~ 1000 x 11 tính năng (LPC cổ đại).

— chối