Mô hình toán học nào của âm thanh có thể làm cho sự thay đổi cao độ có thể của các nốt riêng lẻ trong đa âm (phức tạp về thời gian)?


24

Câu hỏi của tôi là: Mô hình toán học nào của âm thanh đa âm có thể tạo ra sự thay đổi (nghĩa là dịch chuyển độ cao) của từng nốt nhạc trong một bản ghi âm đa kênh trong một nhạc cụ âm thanh đa âm? Bằng cách 'thay đổi ghi chú trong âm thanh đa âm', ý tôi là làm một việc gì đó như chỉnh sửa âm thanh với tính năng được gọi là ' Truy cập ghi chú trực tiếp ' trong phần mềm Melodyne của celeony.

Theo wikipedia , những gì Melodyne sử dụng để mô hình hóa tín hiệu âm thanh của một giai điệu một dòng được chơi trên một nhạc cụ âm thanh (và do đó phức tạp về thời gian) là một cái gì đó giống như những gì Henning Thielemann mô tả trong bài báo của mình có tựa đề ' Pha trộn âm thanh và thời gian trong âm thanh đơn âm ' Tuy nhiên, Tôi không thể tìm thấy bất kỳ tài liệu tham khảo nào về các mô hình tín hiệu âm thanh của các nhạc cụ đa âm; theo một cuộc phỏng vấn trên Youtube của Peter Neubacker (phiên âm bên dưới), tính năng của Melodyne để xử lý âm thanh đa âm đòi hỏi một cách tiếp cận không giống như mô tả của Thielemann.

Một manh mối từ một clip youtube khác là mô hình của Neubacker hoạt động tốt hơn với bản ghi âm chỉ một KIND của nhạc cụ (ví dụ: chỉ piano, chỉ guitar, chỉ dây, chỉ gió, v.v.). Một manh mối khác là một clip khác cho thấy khả năng không chỉ thay đổi cao độ của ghi chú mà còn cả thời gian (bắt đầu và kết thúc) của nó.


Dưới đây là bản ghi của video youtube có đề cập rằng 'các tài liệu đa âm yêu cầu một cách tiếp cận khác' (trong trường hợp bạn không có thời gian để xem nó từ 22:00).

  • Câu hỏi, từ đó Melodyne nảy sinh: làm thế nào tôi có thể có được âm thanh từ dạng 3 chiều như thế này [cử chỉ với đá trong tay]? Có nghĩa là, âm thanh sau đó có thể được giải phóng khỏi sự phụ thuộc của nó vào thời gian liên tục? Tác phẩm điêu khắc này thực sự là thứ nổi lên từ đây ... Đó là một miếng nhựa .... Cái này được lấy trực tiếp từ dữ liệu âm nhạc. Đối tượng này là [nhổ một ghi chú trên đàn] ghi chú này. Nó được hình dung tốt nhất như thế này, từ trái sang phải. Thời gian chạy theo hướng này [cử chỉ từ trái sang phải]. Và đó là biên độ [cử chỉ lớn và nhỏ bằng ngón tay cái đối diện với ngón tay cái]. Nếu tôi bật nó, nó ... đại diện cho âm sắc của âm thanh này tại bất kỳ trường hợp cụ thể nào. Bạn có thể thấy rất rõ ở đây một cấu trúc [chỉ vào mặt cắt ngang ở dưới cùng của tác phẩm điêu khắc] có hình tam giác; đó là bởi vì trong âm thanh này,

    Vì Melodyne chưa tồn tại và tôi chỉ đơn giản là thử nghiệm dịch âm thanh thành hình dạng này, tôi đã làm việc gần một năm với âm thanh này. ... Tôi biết âm thanh này trong và ngoài và trái tim. Điều này cũng cung cấp một minh họa tốt của âm thanh địa phương. Tôi có thể, không chỉ phát lại âm thanh [nhấp chuột], mà tôi còn có thể nhập âm thanh của bất kỳ điểm nào và di chuyển qua nó chậm hoặc nhanh tùy thích. Tôi thậm chí có thể nán lại trong âm thanh, hoặc di chuyển tiến và lùi, vì vậy nếu tôi kiểm tra một nơi ở đây ... hãy đi xung quanh nó. ... Mười năm trước nó mới.

    Gần đây dna (truy cập ghi chú trực tiếp) đã được thêm vào. Với nó, tôi cũng có thể chỉnh sửa nhạc đa âm. Nói cách khác, tôi có thể chỉnh sửa các ghi chú riêng lẻ phát ra âm thanh đồng thời, ví dụ như bản ghi âm guitar. Nếu bây giờ tôi chơi một hợp âm nhỏ [chọn Poly -> Ghi chú riêng biệt trên màn hình], chúng ta sẽ thấy ở đây 3 ghi chú tôi vừa chơi dưới dạng các thực thể riêng biệt. Chúng ta hãy nghe lại [máy tính chơi hợp âm nhỏ]. Và bây giờ, như thể bằng cách di chuyển ngón tay của tôi đến một băn khoăn cao hơn, tôi có thể nâng một ghi chú này [kéo một ghi chú trên màn hình lên; máy tính chơi hợp âm lớn]. Đối với âm thanh được phân chia, tôi có thể tách riêng một ghi chú này và có thể di chuyển nó lên hoặc xuống theo ý muốn, đến bất kỳ cao độ nào tôi muốn.

    Tại sao trước đây không ai có thể cô lập các tông màu riêng lẻ trong vật liệu phức tạp theo cách này? Tôi thực sự không biết. Trong khoa học, xu hướng tự nhiên là bắt đầu bằng một thứ đơn giản, ví dụ như sóng hình sin hoặc ghi chú riêng lẻ và phân tích nó trước tiên, chỉ để khám phá khi vật liệu trở nên phức tạp hơn hoặc phải được xử lý toàn bộ, rằng hệ thống không hoạt động. Cách tiếp cận của tôi là khác nhau. Tôi thực sự bắt đầu với những tín hiệu phức tạp, và chỉ khi tôi muốn kiểm tra một cái gì đó chi tiết thì tôi mới trở lại những cái đơn giản hơn, nhưng trước tiên, tôi phải có ấn tượng chung về những gì đang thực sự xảy ra trong thực tế.

    Liệu bí mật có lẽ nằm trong cuộn này? Heheh, đây thực sự là một cuộn loo. Câu hỏi ban đầu được đặt ra bởi hòn đá là làm thế nào tôi có thể dịch một âm thanh nhất định thành dạng ba chiều. Ở đây, tôi đã sắp xếp các giá trị lấy mẫu riêng lẻ của âm thanh, được chỉ ra ở đây bởi một hai ba và cứ thế, theo hình xoắn ốc. Và hóa ra, nếu bạn nội suy giữa các điểm [cử chỉ trên đường xoắn ốc], một cảnh quan xuất hiện cũng đại diện cho các mặt cắt riêng lẻ trong âm thanh [cử chỉ mặt cắt ngang của điêu khắc].

    Bao nhiêu tuổi là cuộn? 12 năm. Vậy ý tưởng đó là mùa xuân tốt đẹp của Melodyne, trong tất cả những gì chúng ta đã thấy ngày hôm nay ...? Có, nhưng cách cuộn âm thanh này sẽ không còn được sử dụng cho các vật liệu đa âm, đòi hỏi một cách tiếp cận khác.


Không có thời gian, nhưng bạn có thể muốn đọc một số tác phẩm của Bill Sethares về Consonance . Tôi sẽ cố gắng tiêu hóa bài viết của bạn và trả lời đầy đủ hơn trong vài ngày tới.
Peter K.

Tôi không chắc câu hỏi là gì. Cô lập các nốt riêng lẻ và "cuộn âm thanh" khiến tôi nghĩ đến việc gói một dải phổ theo hình xoắn ốc sao cho các sóng hài hòa với nhau: nastechservice.com/Spectrograms.html nastechservice.com/Spectratune.html
endolith

Câu trả lời:


12

TL; DR? Google Scholar để tách một phần hài hòa .


Điểm khởi đầu tốt sẽ là các kỹ thuật mô hình hình sin tách tín hiệu thành các thành phần sin + nhiễu (xác định và ngẫu nhiên). Thành phần xác định, được tạo thành từ các sin, có thể được nối lại một cách thuyết phục:

http://mtg.upf.edu/files/projectsweb/sms-piano-origen.wav

http://mtg.upf.edu/files/projectsweb/sms-piano-deterministic.wav

Các sin được trừ khỏi tín hiệu và phần nhiễu / ngẫu nhiên vẫn còn.

http://mtg.upf.edu/files/projectsweb/sms-piano-stochastic.wav

Phần ngẫu nhiên được tổng hợp bằng cách đưa nhiễu qua một số bộ lọc định hình nhiễu. Một số người khác đã mở rộng điều này thành một mô hình sin + tiếng ồn + tạm thời giúp duy trì các tính năng ngẫu nhiên thoáng qua trong thời gian kéo dài.

https://ccrma.stanford.edu/~jos/sasp/Sines_Naty_Modeling.html

http://mtg.upf.edu/technology/sms

Khi bạn có các tham số hình sin của tín hiệu, có thể phân tách các nốt của các ghi chú chồng chéo bằng cách tìm các tỷ lệ hài hòa và nhóm theo khởi phát, v.v. Theo dõi một phần cho thấy rất nhiều kết quả trên Google Scholar.

http://recherche.ircam.fr/equipes/analyse-synthese/lagrange/research/auge/lagrangeIcassp05.pdf

http://dream.cs.bath.ac.uk/software/sndan/mqan.html

Mô hình Markov ẩn , đa thứcMacaulay-Quatieri là một số phương pháp. Tôi bối rối về việc tách thức ăn thừa ngẫu nhiên thành hai ghi chú. Tôi không biết làm thế nào Melodyne giải quyết điều này.


5

Cách tiếp cận được sử dụng trong melodyne yêu cầu 2 hoạt động miền tần số riêng biệt. Đầu tiên, các kỹ thuật sao chép đa âm được sử dụng để nhóm các thành phần tần số (từ biến đổi tần số tiêu chuẩn) của âm thanh đa âm thành kích hoạt ghi chú. Nói cách khác, các tập hợp con hài hòa theo các kích hoạt ghi chú rất có thể. Xem phản hồi của tôi về bài đăng "Nhận dạng hợp âm đa âm" trên diễn đàn này để tham khảo và mô hình toán học.

Hoạt động thứ hai là chuyển dịch tần số miền tần số của các tập hợp sóng hài được trích xuất ở trên. Tôi không chắc chắn nhưng tôi gần như sẽ đảm bảo rằng Melodyne sử dụng phương pháp tiếp cận giai đoạn để đạt được điều này. Bạn cũng có thể thực hiện kéo dài thời gian bằng cách sử dụng kỹ thuật này . Chúng tôi sử dụng các kỹ thuật tương tự như trong Riffstation và chúng hoạt động khá tốt.


3

Một khả năng có thể là phân tích / tổng hợp lại bằng cách sử dụng phương pháp khớp mẫu thống kê. Nếu bạn biết hoặc có thể đoán một cách hợp lý sự pha trộn của các nhạc cụ có liên quan và có các mẫu (bao gồm các quá độ ban đầu, phổ cộng với tiến hóa phổ, v.v.) cho âm thanh của nhạc cụ cho tất cả các nốt được mong đợi, bạn có thể thử kết hợp thống kê một số lượng lớn hợp âm lành mạnh kết hợp sử dụng các mẫu âm thanh mẫu để ước tính (các) kết hợp đa âm có khả năng nhất. Đây rất có thể sẽ là một tìm kiếm chuyên sâu rất tính toán cho các cực tiểu toàn cầu, trong đó các kỹ thuật tìm kiếm giống như "AI" có thể hữu ích. Sau đó, bạn có thể sử dụng các xác suất hợp âm riêng lẻ khác nhau và sau đó sử dụng các lý thuyết quyết định để chọn các chuỗi đa âm có khả năng nhất trong thời gian.

Sau đó lấy các ghi chú ước tính và tổng hợp lại chúng ở khoảng thời gian và khoảng thời gian chính bạn đã chọn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.