Nếu con người chỉ có thể nghe được âm thanh tần số tối đa 20 kHz, tại sao âm thanh âm nhạc được lấy mẫu ở mức 44,1 kHz?


60

Tôi đã đọc ở một số nơi rằng âm nhạc chủ yếu được lấy mẫu ở mức 44,1 kHz trong khi chúng ta chỉ có thể nghe tối đa 20 kHz. Tại sao lại như vậy?


1
Những người trẻ hơn có thể nghe tần số cao hơn. Các kỹ thuật ghi âm khác sử dụng lên đến 48 kHz.
Thorbjørn Ravn Andersen

15
Định lý Nyquist: bạn cần hai mẫu mỗi lần xoay để cho biết tần số của sóng.
toán học

Bởi vì bộ xử lý nhanh hơn, bộ nhớ rẻ, nhưng bộ lọc tương tự tốt vẫn còn khó khăn, thậm chí tốc độ mẫu cao hơn cũng có thể có ý nghĩa (96 hoặc 192 kHz)
Nick T

2
@ ThorbjørnRavnAndersen Tôi nghĩ rằng 48 kHz là phổ biến vì nó chia thành 24, 25 và 30 khung hình / giây được sử dụng trong sản xuất video. 24 không đồng đều vào 44100. Đó là những gì Wikipedia đề cập.
Nick T

4
@SohamDe Điều này là do nếu bạn lấy mẫu tín hiệu âm thanh 20 kHz ở chính xác 20 kHz, bạn sẽ không nghe thấy gì cả . Hình ảnh nó, một sóng hình sin đạt cực đại cứ sau 1 / 20.000 giây. Chà, nếu bạn lấy mẫu ở cùng một tỷ lệ chính xác, thì bạn sẽ chỉ lấy mẫu các đỉnh (hoặc nút hoặc bất kỳ mức nào bạn xảy ra để lấy mẫu ở mức đó). Vì vậy, khi bạn tạo lại tín hiệu từ kỹ thuật số, tất cả những gì bạn nhận được là một đường thẳng. Khái niệm này được gọi là răng cưa và nó khiến bạn phải lấy mẫu ít nhất gấp đôi tần số tối đa bạn muốn có thể nghe được. 44 100 Hz thuận tiện vì chia hết cho công suất 2.
MichaelK

Câu trả lời:


89
  1. Tốc độ lấy mẫu của tín hiệu thực cần lớn hơn gấp đôi băng thông tín hiệu. Âm thanh thực tế bắt đầu ở 0 Hz, vì vậy tần số cao nhất có trong âm thanh được ghi ở 44,1 kHz là 22,05 kHz (băng thông 22,05 kHz).
  2. Bộ lọc tường hoàn hảo là không thể về mặt toán học, vì vậy chúng ta không thể cắt hoàn toàn tần số trên 20 kHz. Thêm 2 kHz dành cho việc cuộn các bộ lọc; đó là "phòng ngọ nguậy" trong đó âm thanh có thể bí danh do các bộ lọc không hoàn hảo, nhưng chúng ta không thể nghe thấy nó.
  3. Giá trị cụ thể 44,1 kHz tương thích với cả tốc độ khung hình video PAL và NTSC được sử dụng tại thời điểm đó.

Lưu ý rằng lý do được công bố ở nhiều nơi: Wikipedia: Tại sao lại là 44,1 kHz?


9
Xin chào, tôi thực sự đồng ý với câu trả lời của bạn, nhưng điều "..twice tần số cao nhất" sẽ sớm bắt đầu, bởi vì Nyquist là về băng thông, không phải tần số cao nhất; Tôi đã đi trước và sửa đổi một chút câu trả lời của bạn. Vui lòng kiểm tra xem nó có ổn với bạn không.
Marcus Müller

2
@Ruslan: Wikipedia khá hay về nó.
jojek

2
@BrianDrummond Vậy chỉnh sửa nó?
endolith

3
@ MarcusMüller người mới bắt đầu của những người bị cắn bởi “Nyqvist được cao nhất cho phép tần số” sẽ bị cắn dù sao, bởi aliasing hiện vật ... Sau đó, họ sẽ cũng hiểu như thế nào bất kỳ phạm vi tần số băng thông được giải điều chế với một giữa và . 0 Δ f = f s / 2Δf0Δf=fs/2
leftaroundabout

1
Người ta có thể không thể phân biệt được sự khác biệt giữa âm thanh 19.999.9Hz với mười âm hài hoặc âm 20.000.1Hz với chín nếu nghe riêng chúng, nhưng điều đó không có nghĩa là sự chuyển đổi giữa hai âm thanh sẽ không thể nghe được. Có một bộ lọc với sự cắt giảm dần dần sẽ tránh được các vấn đề như vậy.
supercat

72

44.100 được Sony chọn vì đây là sản phẩm của bình phương của bốn số nguyên tố đầu tiên. Điều này làm cho nó chia hết cho nhiều số khác , là một thuộc tính hữu ích trong lấy mẫu kỹ thuật số.

44100 = 2^2 * 3^2 * 5^2 * 7^2

Như bạn đã nhận thấy, 44100 cũng vượt quá giới hạn thính giác của con người tăng gấp đôi. Phần chỉ ở trên cung cấp cho các bộ lọc một số thời gian chậm, do đó làm cho chúng ít tốn kém hơn (ít bị từ chối hơn).

Như Russell chỉ ra trong các ý kiến, số chia cho nhiều khía cạnh số nguyên khác có lợi ích ngay lập tức tại thời điểm tỷ lệ mẫu được chọn. Âm thanh kỹ thuật số ban đầu được ghi lại trên phương tiện ghi video tương tự hiện có được hỗ trợ, tùy thuộc vào khu vực, thông số video NTSC hoặc PAL . NTSC và PAL có các dòng khác nhau trên mỗi trường và các trường trên mỗi giây, LCM trong đó (cùng với các mẫu trên mỗi dòng) là 44100 .


12
Sự lựa chọn không chỉ đơn giản là nhận được nhiều yếu tố chính, mà cụ thể là sử dụng tốt thiết bị quay video NTSC và PAL để lưu trữ các bậc thầy kỹ thuật số. vi.wikipedia.org/wiki/44,100_Hz#Recply_on_video_equipment
Russell Borogove

3
@RussellBorogove: Cảm ơn bạn. Theo liên kết Wiki, 44100 là LCM của tỷ lệ mẫu của tỷ lệ tính năng video NTSC và PAL . Đó là một hậu quả trực tiếp của việc là một con số có rất nhiều yếu tố, và tôi tin rằng bạn đã đúng khi con ngựa dẫn xe đẩy vào thông số này.
dotancohen

1
Chia hết cho nhiều số, nhưng không chia cho 8 :)
Bogdan Alexandru

(Wikipedia nói rằng một loạt các mức 40,5-46,8 kHz sẽ gặp các tiêu chí này, và 44,1 kHz được chọn để cung cấp một ban nhạc chuyển tiếp cho antiliasing lọc)
endolith

2
@BogdanAlexandru Cũng không chia hết cho 1 ms Khung USB: D
endolith

13

Tỷ lệ Nyquist cao hơn gấp đôi băng thông của tín hiệu băng cơ sở mà bạn muốn thu mà không có sự mơ hồ (ví dụ: răng cưa).

Mẫu ở tốc độ thấp hơn hai lần 20kHz và bạn sẽ không thể nhận ra sự khác biệt giữa tần số rất cao và rất thấp chỉ khi nhìn vào các mẫu, do răng cưa.

Đã thêm: Lưu ý rằng bất kỳ tín hiệu độ dài hữu hạn nào cũng có hỗ trợ vô hạn trong miền tần số, do đó không được giới hạn băng thông nghiêm ngặt. Đây là một lý do khác tại sao lấy mẫu bất kỳ nguồn âm thanh không vô hạn nào cao hơn hai lần so với phổ tần số cao nhất (trong tín hiệu băng cơ sở) là cần thiết để tránh hiện tượng răng cưa đáng kể (ngoài lý do là cuộn chuyển tiếp bộ lọc hữu hạn).


Xin chào, tôi thực sự đồng ý với câu trả lời của bạn, nhưng điều "..twice tần số cao nhất" sẽ sớm bắt đầu, bởi vì Nyquist là về băng thông, không phải tần số cao nhất; Tôi đã đi trước và sửa đổi một chút câu trả lời của bạn. Vui lòng kiểm tra xem nó có ổn với bạn không.
Marcus Müller

6
@ MarcusMüller, vì "người mới bắt đầu" lấy mẫu bắt đầu bằng lấy mẫu tín hiệu băng cơ sở và không phải tín hiệu băng thông, nó thực sự tần số cao nhất (đôi khi được gọi là "bandlimit") và không phải băng thông (có sự mơ hồ bổ sung về một phía hoặc hai mặt băng thông).
robert bristow-johnson

@ robertbristow-johnson chưa nhìn vào sự mơ hồ đó. Hừm; Tôi thích cách tiếp cận bandlimit!
Marcus Müller

3
trong bài viết trên Wikipedia chúng tôi gọi nó là " " và, mặc dù Shannon nói là đủ, anh ta đã giả sử năng lượng hữu hạn, vì vậy không có sinusoid (có năng lượng vô hạn và cũng có thể đặt dirac deltas vào lúc ). nếu bạn cho phép một hình sin ngay ở tần số , thì đó sẽ là được nêu rõ hơn . f s2 B ± B B f s > 2 BBfs2B±BBfs>2B
robert bristow-johnson

10

Về cơ bản, hai lần băng thông là một yêu cầu chung để lấy mẫu tín hiệu, do đó kHz là tối thiểu. Sau đó, một chút nữa là hữu ích để đối phó với lọc và lượng tử hóa không hoàn hảo . Chi tiết theo dõi.2×20=40

Những gì bạn cần trong lý thuyết không phải là những gì được yêu cầu trong thực tế. Điều này đi cùng với trích dẫn (quy cho nhiều người):

Trong lý thuyết không có sự khác biệt giữa lý thuyết và thực hành. Trong thực tế có.

Tôi không phải là một chuyên gia về âm thanh, nhưng tôi đã được đào tạo bởi những người lấy mẫu / nén âm thanh chất lượng cao. Kiến thức của tôi có thể bị hoen gỉ, hãy cẩn thận.

Đầu tiên, lý thuyết lấy mẫu chuẩn hoạt động theo một số giả định: hệ thống tuyến tính và bất biến thời gian. Sau đó, về mặt lý thuyết, một hiện tượng giới hạn băng tần liên tục được biết là có thể được lấy mẫu ở khoảng gấp đôi băng thông (hoặc gấp đôi tần số tối đa cho tín hiệu băng cơ sở) mà không bị mất. "Tỷ lệ Nyquist" thường được định nghĩa là:

tốc độ tối thiểu mà tín hiệu có thể được lấy mẫu mà không gây ra lỗi

Đây là phần phân tích của "định lý lấy mẫu". "Có thể" là quan trọng. Có một phần tổng hợp: tín hiệu liên tục " có thể được tái tạo" tương tự bằng cách sử dụng các tín hiệu hồng y. Đây không phải là kỹ thuật duy nhất và nó không tính đến quá trình tiền lọc thấp, phi tuyến tính (như lượng tử hóa, bão hòa) và các yếu tố biến đổi thời gian khác.

Thính giác của con người không phải là một chủ đề đơn giản. Người ta chấp nhận rằng con người nghe được tần số từ 20 Hz đến 20.000 Hz. Nhưng giới hạn chính xác như vậy ở Hertz không phải là một đặc điểm của tự nhiên đối với tất cả mọi người. Mất dần độ nhạy với tần số cao hơn là thường xuyên theo tuổi. Mặt khác:

Trong điều kiện phòng thí nghiệm lý tưởng, con người có thể nghe thấy âm thanh thấp tới 12 Hz và cao tới 28 kHz, mặc dù ngưỡng tăng mạnh ở mức 15 kHz ở người lớn

Thính giác không tuyến tính: có ngưỡng thử giọng và chịu đựng . Nó không phải là bất biến thời gian. Có hiệu ứng che lấp cả về thời gian và tần suất.

Nếu dải tần 20 Hz lên đến 20.000 Hz là một phạm vi phổ biến và 40.000 Hz về mặt lý thuyết là đủ, thì cần thêm một chút để đối phó với sự biến dạng thêm. Một nguyên tắc nhỏ nói rằng 10% nữa là ổn ( băng thông tín hiệu ) và 44.100 Hz chỉ cần làm điều đó. Nó quay trở lại vào cuối những năm 1970. Tại sao 44.000 Hz không được sử dụng? Chủ yếu là do các tiêu chuẩn, được thiết lập bởi sự phổ biến của CD, công nghệ luôn luôn dựa trên sự đánh đổi. Ngoài ra, 44.100 là tích của bình phương của bốn số nguyên tố đầu tiên ( ), do đó có các yếu tố nhỏ, có lợi cho việc tính toán (như FFT).2 2 × 3 2 × 5 2 × 7 22.2×22×32×52×72

Vì vậy, từ đến (và bội số), chúng tôi có sự cân bằng về an toàn, lượng tử hóa, khả năng sử dụng, tính toán và tiêu chuẩn.44.12×2044.1

Các tùy chọn khác tồn tại: ví dụ định dạng DAT được phát hành với lấy mẫu 48 kHz, với việc chuyển đổi ban đầu khó khăn. 96 kHz được thảo luận liên quan đến lượng tử hóa (hoặc độ sâu bit) trong Tôi nên sử dụng tốc độ mẫu và độ sâu bit nào? Đây là một chủ đề gây tranh cãi, xem 24 bit 48kHz câu 24 bit 96kHz . Bạn có thể kiểm tra tỷ lệ mẫu Audacity chẳng hạn.


2
1. Câu trả lời cho câu hỏi là định lý Nyquist chỉ ra> 40kHz, không phải> 20kHz. 2. Cả thính giác và định dạng CD của con người đều không bị giới hạn ở 20Hz ở mức thấp. Bất kỳ cơ quan ống đủ lớn nào cũng có thể tạo ra âm 16Hz và CD có thể tái tạo nó dễ dàng. Một số cơ quan giảm xuống 8Hz, bắt đầu được coi là rung động riêng lẻ, nhưng một lần nữa CD có thể tái tạo.
dùng207421

Tôi đồng ý với nhận xét của bạn, ngoại trừ "chính tả" (đây là điều kiện "nếu"). Bạn có thể chỉ ra nơi tôi đã đi chệch khỏi nó?
Laurent Duval

1
Tôi chỉ có một bổ sung cho câu trả lời của @LaurentDuval. Lời nói, âm nhạc và âm thanh nói chung là những tín hiệu không cố định. Mặc dù đây là những dải được phân chia một cách hiệu quả nhưng chúng ta vẫn chưa biết tai người đang truyền tín hiệu thời gian liên tục đến các dây thần kinh tạo điều kiện cho nhận thức của chúng ta về âm thanh. Người ta thường lập luận rằng một số người có "đôi tai vàng" và có thể tạo ra sự khác biệt giữa các bản ghi 44,1 kHz so với 96 kHz. Ngoài ra, tôi vẫn chưa xác nhận về những điều sau đây, có vẻ như tỷ lệ lấy mẫu cao hơn có lợi cho nhận thức về các tín hiệu bổ sung, chẳng hạn như nội địa hóa trong các bản ghi hai bên.
Neek

0

Tại sao chính xác là 44,1 kHz đã được trả lời - nhưng để tập trung vào khía cạnh câu hỏi của bạn liên quan đến giới hạn nhận thức của con người, lý do khá đơn giản.

Độ phân giải trong thời gian phải đủ tốt để có thể tạo ra tất cả các dạng sóng có thể đến giới hạn có thể nhận biết được. Theo định lý lấy mẫu , độ phân giải phải sao cho tần số lấy mẫu ít nhất gấp đôi tần số này. Theo trực giác, ở tần số cao nhất, bạn cần ít nhất 2 điểm để biểu thị mức tối đa và tối thiểu của tín hiệu của bạn - đưa ra sóng vuông nghệ thuật này:

_   _
 |_| |_

-1

Để tái tạo tín hiệu một cách trung thực, tốc độ mẫu càng nhanh thì càng tốt. ~ 40 kHz đã được chọn, vì đó là tỷ lệ mẫu thấp mà hầu hết mọi người không thể biết được sự khác biệt (khi được xây dựng lại). Khi lấy mẫu âm thanh được giới thiệu, bộ nhớ và lưu trữ đắt tiền và tốc độ mẫu cao hơn không thể rẻ được.

Ở mức gấp đôi giới hạn trên của khả năng nghe của con người, hai mẫu trên mỗi chu kỳ được tái cấu trúc rất kém, ngay cả khi nó đáp ứng tiêu chí Nyquist cho tín hiệu lấy mẫu, một biểu đồ đơn giản mô tả sóng hình sin với hai mẫu trên mỗi chu kỳ sẽ cho bạn thấy hai mẫu trong mỗi chu kỳ kém như thế nào trong việc tái tạo một dạng sóng. Bạn có thể biến một sóng hình sin thành sóng vuông; đó là một điều tốt ở 20 kHz không ai có thể nói. Tôi đặt cược một con chó có thể mặc dù.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.