Phát hiện các phần của một bài hát


9

Hy vọng rằng điều này không quá chủ quan ...

Tôi đang tìm kiếm một số hướng trong nỗ lực phát hiện các "phần" khác nhau của một bài hát, bất kể phong cách âm nhạc. Tôi không biết nên tìm ở đâu, nhưng tin tưởng vào sức mạnh của các trang web StackOverflow khác, tôi đoán rằng ai đó ở đây có thể giúp chỉ ra hướng đi.

Trong hầu hết các thuật ngữ cơ bản, người ta có thể phát hiện các phần khác nhau của một bài hát bằng cách nhóm các mẫu lặp lại liên tiếp và gọi chúng là "một phần". Điều đó có lẽ không quá khó - máy tính khá tốt trong việc phát hiện sự lặp lại trong tín hiệu, ngay cả khi có một số biến thể nhỏ.

Nhưng thật khó khi các "phần" trùng nhau, giống như trong hầu hết các bản nhạc.

Thật khó để nói loại nhạc nào sẽ phù hợp nhất với loại hệ thống này. Tôi đoán rằng hầu hết nhạc giao hưởng theo phong cách cổ điển sẽ dễ xử lý nhất.

Bất kỳ ý tưởng về nơi để tìm kiếm nghiên cứu trong lĩnh vực này?


Tôi nghĩ rằng có một ứng dụng iPhone để nhận ra bài hát từ bản ghi đoạn trích. Và tôi nghĩ đã có một bài viết mô tả ứng dụng này. Tôi xin lỗi tôi không có liên kết, nhưng tôi sẽ bắt đầu với điều đó.
mpiktas

1
@mpiktas: có lẽ bạn đang đề cập đến các ứng dụng như SoundHound hoặc Shazam . Có một whitepaper về cách Shazam hoạt động, mặc dù nó không đi sâu vào chi tiết. Mặc dù tôi không chắc đó là những gì OP cần, nhưng nó có thể là điểm khởi đầu tốt.
nico

Để có một bài đăng blog ngắn, hay trên Shazam (dựa trên, tôi tin rằng, trên tờ giấy trắng), bạn cũng có thể thử laplacian.wordpress.com/2009/01/10/how-shazam-works
raegtin

Câu trả lời:


6

Tôi không phải là chuyên gia về xử lý tín hiệu, nhưng tôi biết một chút công bằng về lý thuyết âm nhạc. Tôi muốn nói rằng, ngược lại, âm nhạc cổ điển có lẽ sẽ là một trong những loại nhạc khó phân tích nhất bằng các phương pháp toán học đơn giản. Tốt nhất bạn nên bắt đầu với một cái gì đó đơn giản và lặp đi lặp lại nhiều hơn, chẳng hạn như nhạc pop hoặc nhạc techno. Pop thường có định dạng câu thơ-hợp xướng-câu ... vv có thể có lợi cho phiên bản đơn giản của mục tiêu của bạn.

Hãy thử sử dụng Biến đổi Fourier trên dữ liệu của bạn để chia nó thành các tần số cấu thành nổi bật nhất của nó, có thể được phân cấp giữa các phần phụ khác nhau. Cụ thể, bạn có thể tìm kiếm những thứ khác nhau dựa trên cách bạn muốn nhóm "các phần" dữ liệu của mình.

  1. Các dao động chậm nhất trong nhạc pop của bạn có thể sẽ là sự dịch chuyển giữa câu hát và điệp khúc và trở lại câu thơ (có thể là 0,75 dao động mỗi phút?).

  2. Tiếp theo, bạn có thể tìm thấy các dao động tần số cao hơn trong số các tiến trình hợp âm của mình, nghĩa là, trong số mỗi lần đo đầy đủ bài hát của bạn (có thể khoảng 6 dao động mỗi phút?).

  3. Tần số cao nhất tiếp theo tôi nghĩ sẽ là một thanh trong một thước đo (có thể khoảng 24 dao động mỗi phút?) Trong đó mô hình nhịp điệu và cách diễn đạt lời bài hát thường lặp lại trong nhạc pop / dân gian.

  4. Tìm hiểu chi tiết về tin đồn, tiếp theo bạn sẽ tìm thấy nhịp đập và nhịp điệu lặp lại trong mỗi thanh nhạc của bạn. Chọn ra và cách ly một trong số chúng (có thể là 148 dao động / nhịp mỗi phút?) Có thể mang lại một cú đá trống bass, hoặc một cú đánh bằng chuông, hoặc một thứ gì đó theo thứ tự tương tự.

  5. Ở đâu đó giữa nhịp và âm bạn có thể tìm thấy các yếu tố phong cách nhanh chóng trong âm nhạc của mình như tốc độ / quét chọn trên guitar điện hoặc nhịp điệu rap nhanh. (Tôi không biết chúng có thể nhanh đến mức nào, nhưng tôi sẽ đoán ở đâu đó theo thứ tự 1000 nhịp mỗi phút trở lên).

  6. Cuối cùng, nhanh chóng, và có lẽ phức tạp nhất, là các yếu tố của giai điệu và âm sắc. Tôi biết rằng nốt "giữa A" được chuẩn hóa là 440 Hz, nghĩa là 440 dao động mỗi GIÂY. Tôi chắc chắn có những kỹ thuật để phân biệt dựa trên chất lượng âm sắc và âm sắc loại nhạc cụ nào đang được sử dụng; thậm chí còn có các thuật toán khá tốt để phát hiện giọng hát của con người. Tuy nhiên như tôi đã nói, tôi không phải là chuyên gia xử lý tín hiệu.


6

Âm nhạc thường được mô tả bằng cách sử dụng bộ mô tả MPEG7 với một số nội dung bổ sung như MFCC được tính trên các đoạn được tạo bởi một số cách tiếp cận cửa sổ chuyển động (tức là bạn có một số kích thước cửa sổ và nhảy, bắt đầu với cửa sổ được đặt ở đầu âm thanh, hãy tính mô tả trên cửa sổ, sau đó di chuyển nó bằng hop và lặp lại cho đến khi kết thúc đạt được).
Bằng cách này, một mảnh được chuyển thành một bảng; trong trường hợp của bạn, nó có thể được sử dụng để áp dụng một số cụm trên các khối và do đó phát hiện các "bộ phận" đó.


Bây giờ điều này là giống như nó hơn! Câu trả lời kỹ thuật tốt.
máy khao khát

5

Có rất nhiều phương pháp khác nhau và rất nhiều tài liệu về chủ đề này từ nhiều khía cạnh khác nhau. Dưới đây là một vài điểm nổi bật có thể là điểm khởi đầu tốt cho tìm kiếm của bạn.

Nếu nền tảng của bạn là âm nhạc nhiều hơn toán học hoặc tính toán, bạn có thể quan tâm đến các tác phẩm của David đối với hầu hết các tác phẩm đã xuất bản của ông tập trung vào phân tích các tác phẩm âm nhạc cổ điển, nhưng ông có một liên doanh tư nhân gọi là tái tổ hợp có vẻ chung chung hơn. Rất nhiều tác phẩm của anh ấy đã sử dụng âm nhạc như một mô hình kiểu ngôn ngữ, nhưng tôi tin rằng ít nhất một số tác phẩm gần đây nhất của anh ấy đã chuyển hướng nhiều hơn sang toàn bộ bộ gen âm nhạc như cách tiếp cận. Ông có rất nhiều phần mềm có sẵn trên mạng , nhưng nó thường được viết bằng Lisp và một số chỉ có thể chạy trong các phiên bản khác nhau của hệ điều hành của Apple mặc dù một số sẽ hoạt động trong Linux hoặc bất cứ nơi nào bạn có thể nhận lisp thường để chạy.

Phân tích tín hiệu và âm nhạc nói chung đã là một vấn đề rất phổ biến trong học máy. Có mạng lưới khởi đầu tốt đẹp trong Christopher ĐGM nhắn tin cho Neural Networks cho Pattern RecognitionPattern Recognition và Machine Learning . Dưới đây là một ví dụ về một bài báo của MSc có phần phân loại âm nhạc, nhưng có độ bao phủ tốt về trích xuất tính năng, tác giả trích dẫn ít nhất một trong các văn bản của Giám mục và một số nguồn khác. Ông cũng đề xuất một số nguồn cho các bài báo hiện tại về các chủ đề.

Những cuốn sách mang tính toán học hoặc thống kê nhiều hơn (ít nhất là theo quyền tác giả của chúng nếu không phải bởi nội dung của chúng):

Vì tôi đã đề cập đến Giám mục và quan điểm tính toán của học máy, tôi chỉ kể một nửa câu chuyện nếu tôi không đề nghị bạn xem qua các yếu tố gần đây của Học thống kê (có sẵn để tải xuống hợp pháp miễn phí) bởi Hastie , Tibshirani và Friedman. Tôi không nhớ cụ thể có một ví dụ xử lý âm thanh trong văn bản này, nhưng một số phương pháp được đề cập có thể được điều chỉnh cho vấn đề này.

Thêm một văn bản đáng xem xét là Thống kê về Âm nhạc học của Jan Beran . Điều này cung cấp một số công cụ thống kê đặc biệt để phân tích các tác phẩm âm nhạc và cũng có nhiều tài liệu tham khảo.

Một lần nữa có rất nhiều nguồn khác ra khỏi đó. Rất nhiều điều này phụ thuộc vào nền tảng của bạn là gì và cách tiếp cận vấn đề mà bạn cảm thấy thoải mái nhất. Hy vọng rằng ít nhất một số điều này hướng dẫn bạn một chút trong quá trình tìm kiếm câu trả lời. Nếu bạn cho chúng tôi biết thêm về nền tảng của bạn, chi tiết bổ sung về vấn đề hoặc đặt câu hỏi để trả lời cho bài đăng này, tôi chắc chắn rằng tôi hoặc nhiều người khác ở đây sẽ vui lòng hướng dẫn bạn đến thông tin cụ thể hơn. May mắn nhất!


4

Không phải là một câu trả lời tuyệt vời nhưng hai nơi để tìm kiếm nghiên cứu là:

Hiệp hội thông tin âm nhạc quốc tế Truy xuất có rất nhiều bài báo được xuất bản về chủ đề này, thật đáng ngạc nhiên là có bao nhiêu thông tin có www.ismir.net

& Echo Nest (Một Startup có API để làm những thứ tương tự) echonest.com

CẬP NHẬT: họ cũng phát hành một số mã vân tay mã nguồn mở. http://echoprint.me/


0

Tôi đã quan tâm đến vấn đề tương tự. Đây là giải pháp. Nó không phải là đề xuất khoa học cũ mà được gọi là âm mưu scape . Xem bài viết này để biết chi tiết (có vẻ tốt đẹp).

Ngoài ra, tôi cũng khuyên bạn nên truy cập trang web của tác giả vì có rất nhiều ứng dụng thống kê tương tự trong âm nhạc. Khi tìm kiếm các nguồn tương tự khác, tôi khuyên bạn nên sử dụng thuật ngữ Truy xuất thông tin âm nhạc bao gồm các khu vực tương tự.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.