Tôi nghĩ rằng sự khác biệt mà bạn đang tìm kiếm giống như theo kinh nghiệm so với lý thuyết (trái ngược với giám sát so với không giám sát), nhưng tôi có thể sai về điều đó. Nói cách khác, điều lý tưởng sẽ là có một định nghĩa lý thuyết về các thể loại khác nhau, thay vì chỉ là một loạt các dữ liệu mờ có thể được sử dụng để phân loại một bài hát [mà không có sự hiểu biết thực sự].
Tuy nhiên, đối với phân loại thể loại chung, có lẽ bạn bị mắc kẹt ít nhất là được đào tạo từ các ví dụ, ngay cả khi chỉ để tạo định nghĩa về thể loại ở vị trí đầu tiên. Đối với ví dụ của bạn, hãy xem xét tần suất mọi người sẽ lập luận [trên YouTube] về việc liệu một ca khúc được thực sự là dubstep (ví dụ như bất kỳ ca khúc đó là hơn dubby và ít lung lay , mặc dù thể loại này bắt đầu ra mà không bất kỳ dao động thực tế). Mọi người định nghĩa các thể loại theo thời gian thông qua các ví dụ, vì vậy thật hợp lý khi hy vọng rằng các thuật toán sao chép hành vi đó cũng sẽ yêu cầu một số ví dụ. Cách mọi người mô tả thể loại gần giống như một vectơ đặc trưng Dù sao đi nữa - họ hỏi một danh sách các câu hỏi về bài hát (ví dụ: nó có bị phá vỡ hay chao đảo hơn không? Nó có nhiều âm trầm không
Tất nhiên, bạn có thể chọn một danh sách các tính năng cũng cung cấp sự hiểu biết trực quan về thể loại này. Một tính năng như "Phạm vi động" là thứ mà một người cũng có thể phát hiện bằng tai, nhưng một cái gì đó như "Giao diện không miền thời gian" sẽ không trực quan lắm - ngay cả khi nó hoạt động tốt để phân loại. Bài viết sau đây có khá nhiều tính năng có thể thú vị với bạn:
George Tzanetakis, Perry R. Cook: Phân loại thể loại âm nhạc của tín hiệu âm thanh. IEEE giao dịch trên Speech và xử lý âm thanh 10 (5): 293-302 (2002) liên kết .
Để đo độ nhám, ví dụ độ nhám của âm thanh học sẽ là một nơi tốt để bắt đầu, nhưng có thể không đủ để phân biệt giữa các đạo trình dubstep và các đạo trình điện, chẳng hạn. Đối với sự khác biệt nhỏ hơn, một điều cần xem xét là nhận dạng âm sắc . Các luận án sau đây có một cuộc khảo sát tốt về kỹ thuật:
Công viên TH, hướng tới nhận dạng âm sắc nhạc cụ tự động, đào Ph.D. Luận án, Đại học Princeton, NJ, 2004. liên kết .
Ngoài ra còn có một mô hình liên quan đến độ nhám cảm nhận trong Âm sắc, Điều chỉnh, Phổ và Tỷ lệ được sử dụng để xây dựng thang đo tùy chỉnh cho các âm sắc tùy ý. Ý tưởng là các sóng hài rất gần nhau tạo ra các tần số nhịp được coi là bất hòa. Diễn giải từ Phụ lục F và E ,
Ff1, f2, . . . , fn
DF= 1 / 2 Σ i = 1n Σj = 1n d( | fTôi- fj|phút ( fTôi,fj))
d( x ) = e- 3,5 x- e- 5,75 x
là một mô hình của Đường cong Plomp-Levelt .
Nó được sử dụng để đo mức độ hài lòng của một hợp âm nhất định đối với âm sắc (bằng cách giảm thiểu sự bất hòa). Tôi không biết liệu sự thô ráp của giống âm thanh tâm lý, hay sự bất hòa nội tại sẽ rất hiệu quả cho mục đích của bạn, nhưng chúng có thể hữu ích khi kết hợp với các số liệu khác.
Có lẽ bạn sẽ có nhiều may mắn hơn khi phân loại âm sắc theo toán học hơn các thể loại. Ví dụ, các chuỗi có các hài âm chẵn và lẻ, nhưng một clarinet chỉ có các hài bậc lẻ (xem sóng Sawtooth , sóng vuông ). Dubstep wobble có xu hướng được thực hiện với các bộ lọc điều khiển LFO (bộ lọc thông thấp và / hoặc bộ định dạng), do đó, một cái gì đó như Spectral Flux (xem [Tzanetakis], ở trên) có thể là điểm khởi đầu tốt như một tính năng. Tuy nhiên, tôi nghi ngờ bất cứ ai đã nghiên cứu phân loại toán học của wobble chưa;)