Tôi đã đọc ở một số nơi rằng âm nhạc chủ yếu được lấy mẫu ở mức 44,1 kHz trong khi chúng ta chỉ có thể nghe tối đa 20 kHz. Tại sao lại như vậy?
Tôi đã đọc ở một số nơi rằng âm nhạc chủ yếu được lấy mẫu ở mức 44,1 kHz trong khi chúng ta chỉ có thể nghe tối đa 20 kHz. Tại sao lại như vậy?
Câu trả lời:
Lưu ý rằng lý do được công bố ở nhiều nơi: Wikipedia: Tại sao lại là 44,1 kHz?
44.100 được Sony chọn vì đây là sản phẩm của bình phương của bốn số nguyên tố đầu tiên. Điều này làm cho nó chia hết cho nhiều số khác , là một thuộc tính hữu ích trong lấy mẫu kỹ thuật số.
44100 = 2^2 * 3^2 * 5^2 * 7^2
Như bạn đã nhận thấy, 44100 cũng vượt quá giới hạn thính giác của con người tăng gấp đôi. Phần chỉ ở trên cung cấp cho các bộ lọc một số thời gian chậm, do đó làm cho chúng ít tốn kém hơn (ít bị từ chối hơn).
Như Russell chỉ ra trong các ý kiến, số chia cho nhiều khía cạnh số nguyên khác có lợi ích ngay lập tức tại thời điểm tỷ lệ mẫu được chọn. Âm thanh kỹ thuật số ban đầu được ghi lại trên phương tiện ghi video tương tự hiện có được hỗ trợ, tùy thuộc vào khu vực, thông số video NTSC hoặc PAL . NTSC và PAL có các dòng khác nhau trên mỗi trường và các trường trên mỗi giây, LCM trong đó (cùng với các mẫu trên mỗi dòng) là 44100 .
Tỷ lệ Nyquist cao hơn gấp đôi băng thông của tín hiệu băng cơ sở mà bạn muốn thu mà không có sự mơ hồ (ví dụ: răng cưa).
Mẫu ở tốc độ thấp hơn hai lần 20kHz và bạn sẽ không thể nhận ra sự khác biệt giữa tần số rất cao và rất thấp chỉ khi nhìn vào các mẫu, do răng cưa.
Đã thêm: Lưu ý rằng bất kỳ tín hiệu độ dài hữu hạn nào cũng có hỗ trợ vô hạn trong miền tần số, do đó không được giới hạn băng thông nghiêm ngặt. Đây là một lý do khác tại sao lấy mẫu bất kỳ nguồn âm thanh không vô hạn nào cao hơn hai lần so với phổ tần số cao nhất (trong tín hiệu băng cơ sở) là cần thiết để tránh hiện tượng răng cưa đáng kể (ngoài lý do là cuộn chuyển tiếp bộ lọc hữu hạn).
Về cơ bản, hai lần băng thông là một yêu cầu chung để lấy mẫu tín hiệu, do đó kHz là tối thiểu. Sau đó, một chút nữa là hữu ích để đối phó với lọc và lượng tử hóa không hoàn hảo . Chi tiết theo dõi.
Những gì bạn cần trong lý thuyết không phải là những gì được yêu cầu trong thực tế. Điều này đi cùng với trích dẫn (quy cho nhiều người):
Trong lý thuyết không có sự khác biệt giữa lý thuyết và thực hành. Trong thực tế có.
Tôi không phải là một chuyên gia về âm thanh, nhưng tôi đã được đào tạo bởi những người lấy mẫu / nén âm thanh chất lượng cao. Kiến thức của tôi có thể bị hoen gỉ, hãy cẩn thận.
Đầu tiên, lý thuyết lấy mẫu chuẩn hoạt động theo một số giả định: hệ thống tuyến tính và bất biến thời gian. Sau đó, về mặt lý thuyết, một hiện tượng giới hạn băng tần liên tục được biết là có thể được lấy mẫu ở khoảng gấp đôi băng thông (hoặc gấp đôi tần số tối đa cho tín hiệu băng cơ sở) mà không bị mất. "Tỷ lệ Nyquist" thường được định nghĩa là:
tốc độ tối thiểu mà tín hiệu có thể được lấy mẫu mà không gây ra lỗi
Đây là phần phân tích của "định lý lấy mẫu". "Có thể" là quan trọng. Có một phần tổng hợp: tín hiệu liên tục " có thể được tái tạo" tương tự bằng cách sử dụng các tín hiệu hồng y. Đây không phải là kỹ thuật duy nhất và nó không tính đến quá trình tiền lọc thấp, phi tuyến tính (như lượng tử hóa, bão hòa) và các yếu tố biến đổi thời gian khác.
Thính giác của con người không phải là một chủ đề đơn giản. Người ta chấp nhận rằng con người nghe được tần số từ 20 Hz đến 20.000 Hz. Nhưng giới hạn chính xác như vậy ở Hertz không phải là một đặc điểm của tự nhiên đối với tất cả mọi người. Mất dần độ nhạy với tần số cao hơn là thường xuyên theo tuổi. Mặt khác:
Trong điều kiện phòng thí nghiệm lý tưởng, con người có thể nghe thấy âm thanh thấp tới 12 Hz và cao tới 28 kHz, mặc dù ngưỡng tăng mạnh ở mức 15 kHz ở người lớn
Thính giác không tuyến tính: có ngưỡng thử giọng và chịu đựng . Nó không phải là bất biến thời gian. Có hiệu ứng che lấp cả về thời gian và tần suất.
Nếu dải tần 20 Hz lên đến 20.000 Hz là một phạm vi phổ biến và 40.000 Hz về mặt lý thuyết là đủ, thì cần thêm một chút để đối phó với sự biến dạng thêm. Một nguyên tắc nhỏ nói rằng 10% nữa là ổn ( băng thông tín hiệu ) và 44.100 Hz chỉ cần làm điều đó. Nó quay trở lại vào cuối những năm 1970. Tại sao 44.000 Hz không được sử dụng? Chủ yếu là do các tiêu chuẩn, được thiết lập bởi sự phổ biến của CD, công nghệ luôn luôn dựa trên sự đánh đổi. Ngoài ra, 44.100 là tích của bình phương của bốn số nguyên tố đầu tiên ( ), do đó có các yếu tố nhỏ, có lợi cho việc tính toán (như FFT).2 2 × 3 2 × 5 2 × 7 2
Vì vậy, từ đến (và bội số), chúng tôi có sự cân bằng về an toàn, lượng tử hóa, khả năng sử dụng, tính toán và tiêu chuẩn.44.1
Các tùy chọn khác tồn tại: ví dụ định dạng DAT được phát hành với lấy mẫu 48 kHz, với việc chuyển đổi ban đầu khó khăn. 96 kHz được thảo luận liên quan đến lượng tử hóa (hoặc độ sâu bit) trong Tôi nên sử dụng tốc độ mẫu và độ sâu bit nào? Đây là một chủ đề gây tranh cãi, xem 24 bit 48kHz câu 24 bit 96kHz . Bạn có thể kiểm tra tỷ lệ mẫu Audacity chẳng hạn.
Tại sao chính xác là 44,1 kHz đã được trả lời - nhưng để tập trung vào khía cạnh câu hỏi của bạn liên quan đến giới hạn nhận thức của con người, lý do khá đơn giản.
Độ phân giải trong thời gian phải đủ tốt để có thể tạo ra tất cả các dạng sóng có thể đến giới hạn có thể nhận biết được. Theo định lý lấy mẫu , độ phân giải phải sao cho tần số lấy mẫu ít nhất gấp đôi tần số này. Theo trực giác, ở tần số cao nhất, bạn cần ít nhất 2 điểm để biểu thị mức tối đa và tối thiểu của tín hiệu của bạn - đưa ra sóng vuông nghệ thuật này:
_ _
|_| |_
Để tái tạo tín hiệu một cách trung thực, tốc độ mẫu càng nhanh thì càng tốt. ~ 40 kHz đã được chọn, vì đó là tỷ lệ mẫu thấp mà hầu hết mọi người không thể biết được sự khác biệt (khi được xây dựng lại). Khi lấy mẫu âm thanh được giới thiệu, bộ nhớ và lưu trữ đắt tiền và tốc độ mẫu cao hơn không thể rẻ được.
Ở mức gấp đôi giới hạn trên của khả năng nghe của con người, hai mẫu trên mỗi chu kỳ được tái cấu trúc rất kém, ngay cả khi nó đáp ứng tiêu chí Nyquist cho tín hiệu lấy mẫu, một biểu đồ đơn giản mô tả sóng hình sin với hai mẫu trên mỗi chu kỳ sẽ cho bạn thấy hai mẫu trong mỗi chu kỳ kém như thế nào trong việc tái tạo một dạng sóng. Bạn có thể biến một sóng hình sin thành sóng vuông; đó là một điều tốt ở 20 kHz không ai có thể nói. Tôi đặt cược một con chó có thể mặc dù.