Khi nào tôi nên tính PSD thay vì phổ cường độ FFT đơn giản?


12

Tôi có tín hiệu giọng nói ba mươi giây được lấy mẫu ở mức 44,1 kHz. Bây giờ, tôi muốn chỉ ra tần số của bài phát biểu. Tuy nhiên, tôi không chắc điều gì sẽ là cách tốt nhất để làm điều đó. Dường như đôi khi người ta tính toán giá trị tuyệt đối của biến đổi Fourier và đôi khi mật độ phổ công suất. Nếu tôi hiểu chính xác, cái sau hoạt động để tôi chia tín hiệu của mình thành các phần, thực hiện từng phần FFT và bằng cách nào đó tổng hợp các tín hiệu này. Các chức năng của cửa sổ có liên quan. Bạn có thể làm rõ điều này một chút cho tôi? Tôi mới biết về DSP.


1
Chia tín hiệu thành các phân đoạn, tìm phổ của từng phân đoạn và sau đó lấy trung bình phổ có thể giúp giảm nhiễu, nhưng cũng giảm độ phân giải. xem en.wikipedia.org/wiki/Welch%27s_method
endolith

Câu trả lời:


8

Bây giờ, tôi muốn chỉ ra tần số của bài phát biểu. Tuy nhiên, tôi không chắc điều gì sẽ là cách tốt nhất để làm điều đó. Dường như đôi khi người ta tính toán giá trị tuyệt đối của biến đổi Fourier và đôi khi mật độ phổ công suất.

Nếu bạn muốn gắn ý nghĩa vật lý vào phân tích của mình, thì hãy đi với mật độ phổ công suất, (PSD). Điều này là do điều này đơn giản sẽ cung cấp cho bạn sức mạnh của tín hiệu của bạn, trong từng dải tần số. Mặt khác, nếu bạn không muốn / quan tâm đến ý nghĩa vật lý, nhưng muốn biết biên độ phạm vi của mỗi dải khác nhau như thế nào, bạn có thể giữ độ lớn tuyệt đối.

x[n]X(f)|X(f)||X(f)|2

Nếu tôi hiểu chính xác, cái sau hoạt động để tôi chia tín hiệu của mình thành các phần, thực hiện từng phần FFT và bằng cách nào đó tổng hợp các tín hiệu này. Các chức năng của cửa sổ có liên quan. Bạn có thể làm rõ điều này một chút cho tôi? Tôi mới biết về DSP.

Không, đây không phải là sự thật. Những gì bạn đang nói ở đây đề cập đến Biến đổi Fourier thời gian ngắn , (STFT). Điều này chỉ đơn giản là cắt tín hiệu miền thời gian của bạn, mở rộng nó, và sau đó thực hiện trnasform phạm vi. Vào cuối ngày, bạn vẫn sẽ có một ma trận phức tạp. Nếu bạn chọn lấy độ lớn tuyệt đối của nó, bạn sẽ có một ma trận biến đổi phạm vi độ lớn tuyệt đối. Nếu bạn lấy bình phương cường độ tuyệt đối của nó, bạn sẽ có một ma trận mật độ phổ công suất.


3

Điều quan trọng để hiểu về một cái gì đó như tín hiệu giọng nói là các thành phần tần số của nó thay đổi theo thời gian . Để biểu diễn lời nói trong miền tần số, chúng ta thường lấy một cửa sổ tín hiệu đủ ngắn, trong đó chúng ta có thể giả sử rằng phổ của lời nói không thay đổi đáng kể (thường là 10 ms). Vì vậy, chúng tôi tính toán phổ công suất cho mỗi cửa sổ 10 ms liên tiếp bằng cách sử dụng STFT (thường có một số chồng chéo giữa các cửa sổ) và coi mỗi phổ liên tiếp là "ảnh chụp nhanh" của các thành phần tần số của lời nói tại thời điểm cụ thể đó. Thông thường các quang phổ liên tiếp được vẽ trong một đồ thị 3D, chẳng hạn như một quang phổ, với thời gian trên trục X, tần số trên trục Y và cường độ được vẽ dưới dạng màu sai hoặc cường độ thang màu xám ở mỗi vị trí X, Y.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.