Nhận biết các hàm toán học trong các bài hát


12

Tôi chưa quen với DSP và mới phát hiện ra StackExchange này, vì vậy xin lỗi nếu đây không phải là nơi thích hợp để đăng câu hỏi này.

Có một tài nguyên mô tả các thể loại trong một thuật ngữ toán học hơn? Ví dụ: nếu tôi đã thực hiện FFT trên tín hiệu trên phần này của bài hát (2:09 nếu liên kết không bắt đầu ở đó), có cách nào để tôi có thể phát hiện ra rằng phần này có loại thô không của âm thanh? Những âm thanh như thế này có tuân theo một số chức năng toán học mà tôi có thể so sánh không? http://www.youtube.com/watch?v=SFu2DfPDGeU&feature=player_detailpage#t=130s (liên kết bắt đầu phát âm thanh ngay lập tức)

Là cách duy nhất để sử dụng các kỹ thuật học tập có giám sát, hay có một cách tiếp cận khác (tốt nhất là không yêu cầu giám sát)?

Cảm ơn vì bất cứ lời khuyên nào.


Bạn có thể sử dụng FFT để phát hiện nhịp trống so với sáo, nhưng không phát hiện thể loại. Những thứ rất địa phương về âm thanh, chắc chắn, nhưng không phải là toàn bộ nhân vật âm nhạc của tập tin.
endolith

Có thể nhận ra "độ nhám" của âm thanh không? Đây có phải là nơi MFCC đi vào hoạt động?
XSL

Câu trả lời:


10

Tôi nghĩ rằng sự khác biệt mà bạn đang tìm kiếm giống như theo kinh nghiệm so với lý thuyết (trái ngược với giám sát so với không giám sát), nhưng tôi có thể sai về điều đó. Nói cách khác, điều lý tưởng sẽ là có một định nghĩa lý thuyết về các thể loại khác nhau, thay vì chỉ là một loạt các dữ liệu mờ có thể được sử dụng để phân loại một bài hát [mà không có sự hiểu biết thực sự].

Tuy nhiên, đối với phân loại thể loại chung, có lẽ bạn bị mắc kẹt ít nhất là được đào tạo từ các ví dụ, ngay cả khi chỉ để tạo định nghĩa về thể loại ở vị trí đầu tiên. Đối với ví dụ của bạn, hãy xem xét tần suất mọi người sẽ lập luận [trên YouTube] về việc liệu một ca khúc được thực sự là dubstep (ví dụ như bất kỳ ca khúc đó là hơn dubby và ít lung lay , mặc dù thể loại này bắt đầu ra mà không bất kỳ dao động thực tế). Mọi người định nghĩa các thể loại theo thời gian thông qua các ví dụ, vì vậy thật hợp lý khi hy vọng rằng các thuật toán sao chép hành vi đó cũng sẽ yêu cầu một số ví dụ. Cách mọi người mô tả thể loại gần giống như một vectơ đặc trưng Dù sao đi nữa - họ hỏi một danh sách các câu hỏi về bài hát (ví dụ: nó có bị phá vỡ hay chao đảo hơn không? Nó có nhiều âm trầm không

Tất nhiên, bạn có thể chọn một danh sách các tính năng cũng cung cấp sự hiểu biết trực quan về thể loại này. Một tính năng như "Phạm vi động" là thứ mà một người cũng có thể phát hiện bằng tai, nhưng một cái gì đó như "Giao diện không miền thời gian" sẽ không trực quan lắm - ngay cả khi nó hoạt động tốt để phân loại. Bài viết sau đây có khá nhiều tính năng có thể thú vị với bạn:

George Tzanetakis, Perry R. Cook: Phân loại thể loại âm nhạc của tín hiệu âm thanh. IEEE giao dịch trên Speech và xử lý âm thanh 10 (5): 293-302 (2002) liên kết .

Để đo độ nhám, ví dụ độ nhám của âm thanh học sẽ là một nơi tốt để bắt đầu, nhưng có thể không đủ để phân biệt giữa các đạo trình dubstep và các đạo trình điện, chẳng hạn. Đối với sự khác biệt nhỏ hơn, một điều cần xem xét là nhận dạng âm sắc . Các luận án sau đây có một cuộc khảo sát tốt về kỹ thuật:

Công viên TH, hướng tới nhận dạng âm sắc nhạc cụ tự động, đào Ph.D. Luận án, Đại học Princeton, NJ, 2004. liên kết .

Ngoài ra còn có một mô hình liên quan đến độ nhám cảm nhận trong Âm sắc, Điều chỉnh, Phổ và Tỷ lệ được sử dụng để xây dựng thang đo tùy chỉnh cho các âm sắc tùy ý. Ý tưởng là các sóng hài rất gần nhau tạo ra các tần số nhịp được coi là bất hòa. Diễn giải từ Phụ lục F và E ,

Ff1,f2,...,fn

DF= =1/2 ΣTôi= =1n Σj= =1n d(|fTôi-fj|tối thiểu(fTôi,fj))

d(x)= =e-3,5x-e-5,75x

là một mô hình của Đường cong Plomp-Levelt .

Nó được sử dụng để đo mức độ hài lòng của một hợp âm nhất định đối với âm sắc (bằng cách giảm thiểu sự bất hòa). Tôi không biết liệu sự thô ráp của giống âm thanh tâm lý, hay sự bất hòa nội tại sẽ rất hiệu quả cho mục đích của bạn, nhưng chúng có thể hữu ích khi kết hợp với các số liệu khác.

Có lẽ bạn sẽ có nhiều may mắn hơn khi phân loại âm sắc theo toán học hơn các thể loại. Ví dụ, các chuỗi có các hài âm chẵn và lẻ, nhưng một clarinet chỉ có các hài bậc lẻ (xem sóng Sawtooth , sóng vuông ). Dubstep wobble có xu hướng được thực hiện với các bộ lọc điều khiển LFO (bộ lọc thông thấp và / hoặc bộ định dạng), do đó, một cái gì đó như Spectral Flux (xem [Tzanetakis], ở trên) có thể là điểm khởi đầu tốt như một tính năng. Tuy nhiên, tôi nghi ngờ bất cứ ai đã nghiên cứu phân loại toán học của wobble chưa;)


2
Phản ứng tuyệt vời từ datageist. Tôi cũng sẽ đề xuất isophonics.net/QMVampPlugins nếu bạn đang tìm kiếm thêm thông tin và nền tảng dev với mã nguồn
Dan Barry

@Dan Trông thật tuyệt, cảm ơn vì liên kết đó.
datageist

Tôi đã tìm thấy một chủ đề thích hợp để nghiên cứu! : D Cảm ơn câu trả lời tuyệt vời và các liên kết. Nó chỉ cho tôi một hướng chứ không phải vô tình sử dụng Google.
XSL

Rất vui được giúp đỡ :)
datageist
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.