Vì vậy, tôi mới biết rằng giọng nói của con người không phải là một sóng hình sin đơn lẻ mà là một loạt các sóng hình sin không giới hạn, mỗi sóng có tần số khác nhau,
Theo Wikipedia,
Giọng nói bao gồm âm thanh được tạo ra bởi một con người sử dụng các nếp gấp của giọng nói để nói, hát, cười, khóc, la hét, v.v. Tần số của nó dao động trong khoảng 60 đến 7000 Hz.
Vì vậy, nếu giọng nói của con người là tín hiệu tổng hợp, nó chứa các tần số khác nhau trong khoảng từ 60Hz đến 7KHz.
Giả sử nếu có một nhóm người hát cùng một bài hát, mỗi người có một dải tần số giọng nói riêng,
Ví dụ,
Nếu một người A có các tần số sau, 100Hz, 250HZ 6KHz, 10Hz, 87Hz, 52Hz, 2KHz .......
và một người B có các tần số sau, 217Hz1, 11Hz, 12Hz, 2323Hz, 839Hz, 4KHz, 100Hz, 10Hz .....
phải có rất nhiều tần số giống nhau ở cả người A & B, như trong ví dụ trên, tần số 100Hz và 10Hz là phổ biến giữa hai người.
Tôi đang xem một chương trình TV "Fringe" nơi họ lọc giọng nói của Người đàn ông cụ thể từ một tệp âm thanh trong khi cũng có giọng nói của người khác ở đó.
Vậy làm thế nào để chính xác họ lọc giọng nói của ai đó ra khỏi giọng nói của 100 người nếu có quá nhiều tần số phổ biến trong số họ thì phải làm gì với biên độ tần số của người đó?