Giới hạn vật lý / điện của chất lượng âm thanh là gì?


7

Vài ngày trước tôi đã ở trong một lớp học về điện tử trong nghiên cứu của tôi. Bài học đầu tiên là giới thiệu về chủ đề chính, bit, tín hiệu tương tự, chuyển đổi, v.v. Một ví dụ được giáo viên hỏi: Lượng bit khả thi tối đa để lưu trữ thông tin âm thanh là bao nhiêu?

Một số câu trả lời được ném qua lớp bao gồm "64 bit, 32 bit, 16 bit, 8 bit (vâng tôi biết ..) ...".

sau đó giáo viên nói rằng đó là khoảng 18,19 bit, sau đó bạn đang đạt đến giới hạn trên vì các biến dạng, tiếng ồn, vv bắt đầu đóng một vai trò lớn cho các bản ghi âm.

Tôi biết chất lượng DVD / Studio điển hình là âm thanh 24 bit.

Tuy nhiên, điều này khiến tôi suy nghĩ: Kích thước bit vật lý / thực / điện tử tối đa trong đó một đoạn âm thanh có thể được lưu trữ là bao nhiêu? âm thanh 32 bit sẽ bị quá mức / chứa quá nhiều tiếng ồn?

Bất kỳ lời giải thích / nguồn về điều này?


1
Không có cỡ mẫu tối đa. Mẫu của bạn có thể có 2 megabyte, nếu bạn muốn như vậy.
Dzarda

3
Tôi nghĩ rằng câu hỏi của giáo viên là một câu hỏi hay để giới thiệu. Nó bao hàm một số chủ đề quan trọng chắc chắn sẽ được xử lý trong khóa học: Tỷ lệ tín hiệu / nhiễu (SNR), thang đo logarit (dB so với log2), hiệu ứng lượng tử hóa, cân nhắc thực tế ("thiết kế cân bằng") - và mức độ phù hợp của tiếp thị các số như "âm thanh 32 bit", "9600dpi", "camera điện thoại thông minh 40 megapixel" hoặc "392kbit / s MP3".
JimmyB

Lưu ý rằng định dạng dấu phẩy động 32 bit là tuyệt vời để chỉnh sửa âm thanh. Nó có độ sâu mẫu tuyệt vời (ít nhất 24 bit) và cách quá nhiều dải động, do đó bạn không có nguy cơ bị cắt hoặc làm cho tín hiệu quá nhỏ.
Nayuki

Câu trả lời:


6

Kích thước bit vật lý / thực / điện tử tối đa trong đó một đoạn âm thanh có thể được lưu trữ là bao nhiêu?

Theo nhận xét của Dzarda, đây không phải là một câu hỏi hợp lý và không rõ ý của bạn là 'mảnh'. Nếu bạn có nghĩa là mẫu, bạn có thể lưu trữ nó trong nhiều bit như bạn có thể lưu trữ. HD thông thường chứa 1 TB trở lên, vì vậy 8 Tera Bits sẽ nằm trong tầm tay.

âm thanh 32 bit sẽ bị quá mức / chứa quá nhiều tiếng ồn?

Nó là quá mức theo cùng một cách mà nó không có ý nghĩa để bảo vệ chiếc xe đạp của bạn với một chuỗi rất nặng được đóng lại bằng một ổ khóa nhựa mềm. Bạn nên chi tiêu ít tiền hơn cho chuỗi và sử dụng nó để mua ổ khóa tốt hơn.

Hãy tranh luận rằng tỷ lệ tín hiệu / nhiễu từ các phần tương tự của hệ thống âm thanh của bạn tương ứng với 16 bit. Nếu bạn phát lại âm thanh kỹ thuật số được lưu trữ dưới dạng 18 bit làm tăng thêm 25% mức nhiễu đó: nó sẽ tăng tiếng ồn lên 25%. (từ 100 đến 125, tính theo đơn vị tùy ý). 20 bit sẽ tăng nó thêm 6,25%. 32 bit bằng 0,0015%. Đó là: giả sử bạn có một bản dịch hoàn hảo từ kỹ thuật số sang analog.

Chi phí lưu trữ tăng tuyến tính với kích thước bit, chi phí của bộ chuyển đổi D / A chính xác toàn dải tăng gần như theo cấp số nhân khi bạn tiếp cận một số bit nhất định (~ 22?). Vì vậy, sử dụng nhiều bit hơn chất lượng tương đương trong các phần tương tự có chi phí cao hơn, nhưng mức tăng chất lượng giảm đi. Vì vậy, đơn giản là không kinh tế khi sử dụng nhiều bit hơn: nếu bạn muốn chi nhiều tiền hơn để có chất lượng tốt hơn, bạn nên dành nó cho các bộ phận tương tự. (Tôi không phải là một audiophile, nhưng AFAIK loa thường là liên kết yếu nhất.)

Đây là một chủ đề phổ biến trong kỹ thuật: nó không phải là làm các bộ phận riêng lẻ tốt nhất có thể, mà là về một thiết kế cân bằng.


1
Đoạn thứ 3 của bạn (tính toán bit) là một khối nhầm lẫn và mâu thuẫn với chính nó. Tại sao chuyển động ở dạng 16 - 18 bit làm tăng độ nhiễu lên 25% (tính toán để hỗ trợ điều đó) - khi có mối quan hệ nổi tiếng với giảm nhiễu ở độ sâu bit cao hơn, bởi lý lẽ của bạn nếu tôi giảm độ sâu bit xuống 14 bit sẽ giảm 25%? Điều gì sau đó sẽ ngăn tôi giảm các bit xuống 1 bit cho một chuyển đổi lý tưởng? - rõ ràng là vô nghĩa. Một mâu thuẫn khác ở chỗ ở độ sâu bit cao hơn (32 bit) tiếng ồn hầu như không tăng? Rất bối rối.
giữ chỗ

Nếu nhiễu của các phần tương tự tương đương với nhiễu của kênh kỹ thuật số 16 bit (giả định), thì sự kết hợp đó có sự đóng góp tiếng ồn tương đương từ các phần tương tự và kỹ thuật số, vì vậy phần kỹ thuật số thêm nhiễu 100% vào nhiễu tương tự. Bây giờ việc chuyển từ 16 xuống 18 bit làm giảm mức đóng góp nhiễu của phần kỹ thuật số từ 100% xuống 25% (so với đóng góp nhiễu tương tự): lỗi lượng tử hóa của kênh 18 bit là 1/4 so với kênh 16 bit .
Wouter van Ooijen

2
Thậm chí không gần đúng. Các nguồn nhiễu độc lập thêm dưới dạng RSS (tổng bình phương gốc) vì vậy hai nguồn cường độ giống hệt nhau sẽ tăng tổng nhiễu là sqrt (2). Đối với RMS đo của một lý tưởng ADC SNR = 6,02 * N + 1,76 (dB) cho phép thêm vuông góc với tiếng ồn tương tự, vì vậy di chuyển từ 16 -18 bit làm giảm tiếng ồn bằng 12.04 dB nhưng thêm vào trong cầu phương bạn chỉ nhìn thấy một giảm trong dạng nhiễu mà sqrt (2) thành sqrt (1 + 1/16) = 1.03 X nên khía cạnh kỹ thuật số chỉ đóng góp 3%.
giữ chỗ

Bạn đã đúng về việc bổ sung RSS và điều đó thực sự thay đổi các con số, nhưng không thay đổi nguyên tắc.
Wouter van Ooijen

3

Công nghệ có thể cho phép bạn lưu trữ dữ liệu (gần như) vô cùng lớn (mẫu / giây) và dữ liệu (bit) vô cùng sâu và thực tế có rất nhiều thứ lưu trữ thứ này: có rất nhiều máy ảnh có thể ghi lại chi tiết nhanh hơn và cao hơn con người mắt có thể nhìn thấy, ví dụ 500 khung hình mỗi giây. Tương tự như vậy, có các dụng cụ khoa học như máy đo địa chấn rất đơn giản giống như micrô nhưng nhạy hơn nhiều so với tai người và dữ liệu được ghi có thể được lưu trữ chi tiết hơn con người có thể giải thích trực tiếp nếu được phát lại ở thế giới thực. cấp độ. Tuy nhiên, các thiết bị khác nhau này hầu như luôn được sử dụng để ghi lại mọi thứ để chúng tôi có thể phân tích chúng theo một cách khác: sóng trên biểu đồ, video chuyển động chậm, v.v.

Quay trở lại với việc ghi và phát lại âm thanh, một lần nữa, có các công cụ khoa học & kiểm tra có thể lấy mẫu, ghi, tái tạo và tạo ra tín hiệu chất lượng tốt hơn (như độ phân giải / độ sâu / độ chính xác) so với con người có thể xử lý, nhưng không có nhiều điểm để có chúng trong một phòng thu âm

Bây giờ, trong một phòng thu nhiều bản nhạc thực sự tốt, bạn có thể muốn chất lượng tốt hơn con người có thể nhận ra khi bạn thêm nhiều thứ lại với nhau, do đó, càng ít lỗi bạn giới thiệu càng tốt trong bản phối cuối cùng. Đơn giản hóa một lần nữa; nếu bạn thực hiện tất cả các khoản tiền cứng bằng cách sử dụng 4 vị trí thập phân, câu trả lời cuối cùng của bạn có thể chỉ cần là 1 chữ số thập phân nhưng vẫn có thể xuất hiện tốt hơn vì bạn sẽ không bị mất nhiều trong các lỗi làm tròn.

Trong trường hợp cuối cùng (tiêu dùng của con người) chỉ có rất nhiều người có thể nhận ra nên thiết bị thường được chế tạo đủ tốt cho điều đó, bởi vì tại sao bạn sẽ làm nhiều việc hơn mà không thu được lợi?

Ví dụ: hình ảnh kỹ thuật số đã đứng đầu với 8 bit mỗi màu vì mắt không thể phân biệt được nhiều hơn khoảng 256 màu xám / tổng số kết hợp của 16,8 triệu màu và sắc độ. Chúng tôi có PC 64 bit và máy ảnh kỹ thuật số tốt hơn nhiều hiện nay, chúng tôi có thể lưu trữ 16 bit mỗi màu, nhưng mọi người không thể thấy 281,474,976,710,656 màu khác nhau và chúng tôi sẽ lãng phí rất nhiều nỗ lực để chụp và lưu trữ dữ liệu đó.

Tương tự như vậy, không ai sẽ trả tiền cho một phòng thu âm có đầy đủ thiết bị có thể nghe, chụp, ghi lại và tái tạo một con ruồi xì hơi ở phía sau căn phòng vì ai đó đập một cái trống như không ai sẽ nghe thấy, ngay cả khi nó ở đó


Thực tế có thể có một số lợi ích lớn vượt quá 8 bit mỗi màu, và tương tự 16 bit cho âm thanh, bởi vì cả thị giác và thính giác đều là logarit, nhưng hình ảnh và âm thanh cần được kết hợp tuyến tính. Không cần phân biệt giữa thứ gì đó có độ sáng đầy đủ 99,5% và độ sáng đầy đủ 100%, nhưng nếu điều sáng nhất trong cảnh là 5% độ sáng đầy đủ, thì có thể chênh lệch giữa 0,2% độ sáng đầy đủ và độ sáng đầy đủ 0,1% khổng lồ.
supercat

Bạn đúng - rất hữu ích khi thu được nhiều dữ liệu hơn bạn cần, đặc biệt là nếu bạn sẽ xử lý dữ liệu đó (EG thực hiện CSI: kiểu "nâng cao!" Trên hình ảnh hoặc ghi âm để đưa ra chi tiết bị ẩn hoặc không sử dụng phạm vi năng động đầy đủ có sẵn). Bạn có thể chụp một bức ảnh hoàn toàn "đen" trong đó có 100 cấp độ màu đen, nhưng dữ liệu ở đó để tăng độ tương phản và hiển thị chi tiết. Tất nhiên, lượng dữ liệu bạn thu được càng cao thì càng tốn nhiều chi phí và rất nhiều người không bao giờ quan tâm đúng mức đến lợi ích.
John U

2

Vui vẻ .. để chơi với một số số. Giả sử 1 k ohm trở kháng nguồn. (Bạn phải giả sử một cái gì đó.) Vì vậy, có tiếng ồn Johnson ~ 4nV / rtHz. Đối với băng thông 10kHz, đó là ~ 400nV tiếng ồn. OK và giả sử nó đã tăng tới 5 Volts và được lưu trữ. Đó là khoảng 10 ^ 7 trong phạm vi động ... 23 bit. (Trong cuộc sống thực sẽ có nhiều tiếng ồn hơn ...)


5
Bạn đang giả định rằng tầng nhiễu băng thông rộng đại diện cho một số giới hạn tuyệt đối. Nó không. Các thử nghiệm đã chỉ ra rằng tai người có thể chọn ra các âm nhạc có độ âm từ 10 đến 20 dB trở lên dưới mức nhiễu băng thông rộng. Tâm lý học là một chủ đề phức tạp.
Dave Tweed

@DaveTweed, Này hoàn toàn chính xác! . không liên quan đến tiếng ồn Johnson? Có thể chuyển động Brown của nguyên tố (cuộn dây.)
George Herold

1
Chà, chắc chắn là chuyển động Brown của không khí (khái niệm chỉ áp dụng cho chất lỏng), ảnh hưởng đến cả micro và màng nhĩ. Nhưng một lần nữa, đó là nhiễu băng thông rộng không đại diện cho bất kỳ giới hạn tuyệt đối nào.
Dave Tweed

Tôi đồng ý với tín hiệu trung bình chúng ta có thể tiếp tục đi sâu vào nhiễu và tìm tín hiệu. Điều đó làm cho câu hỏi mở kết thúc. SNR = 1 dường như là một điểm tham chiếu tự nhiên.
George Herold

0

Trong trường hợp âm thanh được truyền qua điện thoại, các mức lượng tử hóa cho A / D, được xác định bởi hệ thống mô hình mức nhiễu. Đó là, chúng ta không nên tăng mức độ lượng tử hóa, bởi vì nhiễu trong các giá trị được chuyển đổi được bao gồm. Ngoài ra, tai không phản hồi theo kiểu tuyến tính, do đó để tối ưu hóa băng thông của tín hiệu được truyền qua điện thoại, một chuyển đổi phi tuyến được sử dụng, cho phép mã hóa âm thanh trong 8 bit và phục hồi tín hiệu dễ hiểu.

Rõ ràng, chất lượng truyền âm thanh cho điện thoại, không phải là dành cho một hệ thống âm thanh có độ trung thực cao.

Nói tóm lại, lý thuyết nói rằng không có giới hạn trên đối với số lượng mức độ lượng tử hóa của tín hiệu âm thanh, nhưng trong thực tế, nhiễu có trong hệ thống có thể đặt giới hạn trên. Để biết thêm thông tin xem liên kết này .


0

Âm thanh 32 bit được lưu trữ ở định dạng dấu phẩy động là phổ biến trong ngành công nghiệp chuyên nghiệp. Tuy nhiên, đó là để giảm các lỗi làm tròn trong quá trình xử lý kỹ thuật số, nơi nó được xử lý nhiều thông qua tất cả các loại bộ lọc và biến đổi kỹ thuật số. Khi kết thúc ghi hoặc phát, tôi không tin ai có thể phân biệt giữa 24 bit ở 192kHz và lấy mẫu nhanh hơn sâu hơn. Có lẽ thậm chí không có dơi.


0

Có vẻ như bạn cần hiểu một số thuật ngữ cơ bản. Có bộ chuyển đổi AD <-> DA có kích thước "bit" khác nhau và tần số hoạt động khác nhau. Kích thước bit, ảnh hưởng đến độ chính xác của "mẫu", trong khi tần số ảnh hưởng đến tốc độ lấy mẫu. Thông thường, bạn có một tín hiệu âm thanh mà bạn muốn số hóa. Vì vậy, câu hỏi đầu tiên bạn phải trả lời là, mẫu chính xác cần phải như thế nào? Số lượng bit được sử dụng càng cao, chất lượng âm thanh được tái tạo càng cao và chi phí của bộ chuyển đổi càng cao. Tốc độ lấy mẫu càng cao, chất lượng âm thanh được tái tạo càng cao và chi phí của bộ chuyển đổi càng cao. Vì vậy, giới hạn thực tế đầu tiên được áp đặt bởi chi phí của bộ chuyển đổi. Có một giới hạn thực tế khác được áp đặt bởi "sự nhạy cảm của con người". Nếu đôi tai của chúng ta không thể phát hiện ra sự khác biệt giữa âm thanh gốc và âm thanh được tái tạo, thì số bit và tốc độ lấy mẫu được sử dụng để đạt được điều đó, sẽ "đủ tốt". Dựa trên thông tin này, tôi tin rằng câu hỏi của bạn nên là:
Số bit tối đa, thực tế, (của bộ chuyển đổi AD <-> DA) phải là bao nhiêu để có thể tái tạo một bản sao chấp nhận được của tín hiệu âm thanh?
Tôi tin rằng các tính toán phù hợp sẽ cho khoảng 18 bit với tốc độ lấy mẫu là 150K Hz.


"Chấp nhận được" là một trong những thông số kỹ thuật có nghĩa là hoàn toàn không có gì.
Scott Seidman
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.