Làm thế nào có thể Lọc giọng nói của một người trong số 100 giọng nói khác?

Vì vậy, tôi mới biết rằng giọng nói của con người không phải là một sóng hình sin đơn lẻ mà là một loạt các sóng hình sin không giới hạn, mỗi sóng có tần số khác nhau,

Theo Wikipedia,

Giọng nói bao gồm âm thanh được tạo ra bởi một con người sử dụng các nếp gấp của giọng nói để nói, hát, cười, khóc, la hét, v.v. Tần số của nó dao động trong khoảng 60 đến 7000 Hz.

Vì vậy, nếu giọng nói của con người là tín hiệu tổng hợp, nó chứa các tần số khác nhau trong khoảng từ 60Hz đến 7KHz.

Giả sử nếu có một nhóm người hát cùng một bài hát, mỗi người có một dải tần số giọng nói riêng,

Ví dụ,

Nếu một người A có các tần số sau, 100Hz, 250HZ 6KHz, 10Hz, 87Hz, 52Hz, 2KHz .......

và một người B có các tần số sau, 217Hz1, 11Hz, 12Hz, 2323Hz, 839Hz, 4KHz, 100Hz, 10Hz .....

phải có rất nhiều tần số giống nhau ở cả người A & B, như trong ví dụ trên, tần số 100Hz và 10Hz là phổ biến giữa hai người.

Tôi đang xem một chương trình TV "Fringe" nơi họ lọc giọng nói của Người đàn ông cụ thể từ một tệp âm thanh trong khi cũng có giọng nói của người khác ở đó.

Vậy làm thế nào để chính xác họ lọc giọng nói của ai đó ra khỏi giọng nói của 100 người nếu có quá nhiều tần số phổ biến trong số họ thì phải làm gì với biên độ tần số của người đó?

frequency voice

— Sufiyan Ghori
nguồn

Có nhiều cách điều này có thể được thực hiện. Bạn sẽ phải cung cấp thêm chi tiết về phương pháp họ đã sử dụng trong chương trình truyền hình.

— endolith

Chương trình truyền hình tạo nên rất nhiều hiệu ứng đặc biệt. Đây có thể là một cái khác. Con người nghĩ rằng họ có thể làm điều này, nhưng hóa ra rất nhiều suy đoán vô thức thường liên quan đến nhận thức đó.

— hotpaw2

Researcher.watson.ibm.com/researcher/view_project.php?id=2819

— Paul R

Câu trả lời:

Nếu tín hiệu được ghi chỉ bằng một micrô, bạn có thể sử dụng các phương pháp như trừ phổ. Phương pháp này phù hợp hơn với tiếng ồn "không đổi", như tiếng ồn từ quạt hoặc động cơ không tải. Các phương pháp khác dựa trên thống kê và mô hình nhận thức của lời nói. Nếu tín hiệu được ghi bằng một số micrô, bạn có thể sử dụng tách nguồn mù để tách tín hiệu (lời nói). Như ngày hôm nay, bạn sẽ không nhận được kết quả hoàn hảo. Kết quả cuối cùng điển hình luôn là sự đánh đổi giữa "tiếng ồn" và sự rõ ràng của tín hiệu lời nói quan tâm. Ức chế "nhiễu" nhiều hơn -> suy giảm tín hiệu quan tâm nhiều hơn.

— dspGuru
nguồn

Chào mừng bạn đến với dsp.se :) Tôi muốn cung cấp một số lời khuyên và khuyến khích thân thiện: câu trả lời đầu tiên của bạn là tốt, xin chúc mừng, không phải ai cũng cung cấp câu trả lời tốt trong lần đầu tiên của họ. Nếu bạn muốn tham gia ở đây nhiều hơn, hãy để tôi cung cấp cho bạn một số mẹo về cách làm cho câu trả lời hay trở nên tuyệt vời : chúng thường bao gồm các liên kết và tài liệu tham khảo và / hoặc một câu hoặc hai lời giải thích về các phương pháp được đề xuất (và tại sao chúng phù hợp cho vấn đề). Những câu trả lời tuyệt vời cũng tận dụng tối đa định dạng: có danh sách và gạch đầu dòng, đoạn văn và trích dẫn, và nếu nó trông đẹp, nó dễ đọc hơn. Hãy vui vẻ ở đây!

— Penelope

mối quan tâm của tôi là gì, mọi người đều có một số tần số tương tự như thế nào chúng ta sẽ biết tần số đó thuộc về ai? ý tưởng chung đằng sau nó là gì?

— Sufiyan Ghori

Nếu bạn có hai người nói cùng một lúc, bạn sẽ KHÔNG BIẾT - nhưng bạn có thể đoán. Khi bạn thực hiện phân tích tần số, bạn sẽ thấy các tần số trên toàn dải tần bị ảnh hưởng và bạn không thể lấy ra một bộ tần số nhất định và nói đây là loa1 và một bộ tần số khác, và nói đây là loa2. Nếu bạn muốn quyết định ai sẽ nói khi nào, bạn sẽ phải thực hiện một số mã đưa ra quyết định đó. Nhiều khả năng nó sẽ dựa trên một mô hình của các diễn giả (tức là những người đang nói).

— dspGuru

Sau đó, bạn có thể sử dụng quyết định tắt tiếng âm thanh và / hoặc thực hiện một số bộ lọc thông minh khi những người khác (hơn là người bạn quan tâm) đang nói chuyện ..

— dspGuru

vậy bạn có nghĩa là không thể làm như vậy?

— Sufiyan Ghori

-1

được rồi, giả sử chúng ta có một tập tin âm thanh của hai người nói chuyện .. nếu họ không nói chuyện đồng thanh, có thể tách rời yếu tố âm điệu trong bài phát biểu của họ. Có thể khó hơn để phân tách các yếu tố tiếng ồn trong lời nói của họ (ssss hoặc âm fffff), nhưng một lần nữa nếu họ không nói đồng thanh thì có thể là có thể. điều này sẽ dễ thực hiện hơn nhiều nếu chúng ta có thể thực hiện phân tích quang phổ trên âm thanh mà không làm mất thông tin pha.

về cơ bản, phân tích quang phổ lấy một dạng sóng (âm thanh là một sóng hoặc một đường) và tách tất cả các âm riêng lẻ để bạn có thể nhìn thấy chúng từ thấp đến cao và từ trái sang phải theo thời gian. khi thực hiện điều này, hầu hết các thông tin cho thấy sự tăng giảm của dạng sóng đơn bị mất. nếu chúng ta có thể lưu giữ thông tin pha, việc này sẽ dễ dàng hơn nhiều vì tất cả các tần số thành phần riêng lẻ của một giọng nói sẽ liên quan hài hòa với nhau, do đó pha của chúng sẽ thẳng hàng.

hiện tại, tôi không biết bất kỳ thuật toán nào đạt được điều này, nhưng tôi tin rằng nó có thể về mặt lý thuyết. Tôi nhớ đã đọc một số bài viết về peter neubäcker của melodyne đang làm việc để làm điều này, để hai ca sĩ hát với nhau có thể được tách ra, nhưng tôi không biết làm thế nào tôi sẽ tìm lại bài viết này

— kamalmanzukie
nguồn