Tại sao âm thanh điện thoại được lấy mẫu ở 8 kHz?


8

Khi nào chúng tôi quyết định lấy mẫu điện thoại ở kHz? Điều này luôn luôn là trường hợp? Tại sao chúng ta làm điều đó? Có phải vì tốc độ bit cao hơn không thể được chuyển nhanh như vậy? Và những lý do này vẫn còn tính? Và nếu không, tại sao vẫn chưa có một tiêu chuẩn mới? Có đúng là kHz là tốc độ lấy mẫu thấp nhất có thể để chuyển lời nói dễ hiểu không?88

Tôi đang cố gắng tìm các nguồn cho việc này, nhưng dường như không có nhiều thông tin về nó.


2
Nó không phải luôn luôn như vậy, bởi vì các đường dây điện thoại được sử dụng hoàn toàn tương tự.
Simon B

2
trên thực tế, chúng vẫn có thể hoàn toàn tương tự cho các cuộc gọi nội hạt trong cùng một trao đổi. nhưng tôi không biết nhưng ngay cả khi chúng là tương tự, vẫn có những hạn chế về băng thông và "chất lượng giọng nói" là tiêu chí đủ.
robert bristow-johnson

Để chúng ta không bị nhầm lẫn ... và tốc độ Baud và tốc độ bit không giống nhau .. Baud là "Bits at Mật độ đơn vị". Baud là tốc độ báo hiệu, Bits là tốc độ thông tin. vì vậy nếu tốc độ BAUD của bạn là 1200 baud và bạn đang truyền 4 bit trên mỗi chu kỳ xung nhịp thì bạn đang chạy 4800 bit mỗi giây .. Chúng tôi có các modem DSP có khả năng truyền 150Kb / giây xuống một đường dây điện thoại tương tự nhưng kỹ thuật điều chế rất tinh vi và sử dụng bất cứ nơi nào từ 256 đến 512 âm thanh để di chuyển dữ liệu xuống đường ống .. cũng như cân bằng đường truyền và loại bỏ độ trễ .. Tôi nhớ là đã thấy một số modem mà w
Keith

Ah tìm thấy nó ... Robotics Hoa Kỳ đã tạo ra một Modem BAUD 2400 được gọi là Sportster HST v92. nó là 2400 Baud nhưng đã vượt qua 21.600 bit mỗi giây. Vì vậy, đã có 2400 modem BAUD trên thị trường vào giữa những năm 90
Keith

Câu trả lời:


4

Nếu bất cứ ai quan tâm đến đào, tôi nghĩ họ sẽ thấy rằng trước khi Bell Điện thoại bắt đầu ghép các giọng nói, họ đã nghiên cứu rất nhiều về nội dung tần số của giọng nói của con người. Ban đầu, họ đã sử dụng các nhóm thử nghiệm để phát triển đơn vị âm thanh bel và phân phối công suất của giọng nói cũng như độ nhạy của tai người với các tần số khác nhau. Họ đã phát triển một đặc tính vượt qua băng tần đạt đỉnh khoảng 2,1 KHz và giảm xuống dưới 300 và hơn 3000 HZ. Điều đó đã cho một giọng nói tốt của con người khi được thực hiện chính xác. Tất cả đó là tương tự.
Đài phát thanh AM đã mở rộng tới 5 KHz để bao gồm âm nhạc được hầu hết mọi người chấp nhận khi chúng ta còn trẻ và có đôi tai tốt. Máy biến áp flyback truyền hình được thiết kế để chạy ở mức ~ 17,5 KHz vì có một con số kỳ diệu để tái tạo hình ảnhvà hầu hết mọi người không thể nghe thấy tiếng rên rỉ . Đài phát thanh dải đơn đã được thương mại hóa vào những năm 1960 và cần tần số cắt rất sắc nét. Tôi đã sử dụng bộ đàm với các bộ lọc ở mức 2.1 và 3.1 KHz. 2.1 có một số đặc điểm Vịt Donald. 3,1 nghe có vẻ tốt, một lần nữa với đôi tai trẻ. Băng thông âm thanh được tăng lên 20 KHZ hoặc tốt hơn với FM vì tần số sóng mang cao hơn có thể xử lý băng thông cao hơn để tái tạo âm nhạc tốt hơn . Xếp chồng một số xylophones hoặc chuông hoặc các nhạc cụ có âm vực cao khác và chúng có thể nhận đủ năng lượng điều hòa vào các tần số cao hơn. OTOH, như là trạng thái, hầu hết mọi người không thể nghe thấy nó.

Điểm mấu chốt là bất cứ ai tuyên bố rằng họ cần băng thông 20 KHz cho giọng nói đều không được chú ý. 3 KHz sẽ làm điều đó, 5 sẽ cung cấp cho bạn một số tiền ký quỹ. Nếu nó không đúng, thì vấn đề khác ngoài băng thông là vấn đề.

Khi tín hiệu kỹ thuật số đang được phát triển, những người biết rằng bất kể hình dạng sóng kỳ lạ như thế nào, nó có thể bị phá vỡ thành một tập hợp các sóng hình sin. Sự pha trộn hài hòa của những sóng đó tạo ra mô hình tăng đột biến điển hình của giọng nói hoặc âm nhạc. Cuối cùng, Nyquist đã nghiên cứu về tốc độ lấy mẫu kỹ thuật số cần thiết để tái tạo sóng hình sin ở một tần số nhất định. Hóa ra phải mất 2 mẫu để tạo ra một sóng hình sin nên tần số cao nhất sẽ được sao chép là một nửa tốc độ mẫu. Bạn muốn 5 KHz âm thanh sau đó lấy mẫu ở mức 10 KHz. Tốt cho giọng nói. Bạn muốn âm nhạc có độ trung thực cao hơn hầu hết mọi người có thể nghe sau đó lấy mẫu ở mức 40 KHz hoặc hơn để có được hơn 20 KHz.

Thêm một miếng ngon là lấy mẫu so với bitrate. Nếu bạn lấy mẫu ở một tần số nhất định thì nhân số đó với độ dài từ bạn sẽ nhận được tốc độ bit tối thiểu cần thiết để tạo ra tín hiệu mong muốn. Giảm bitrate và kích thước của từ mẫu sẽ được cắt để đáp ứng tốc độ bit mới theo tỷ lệ mẫu nhất định. Đó là tất cả mã hóa "lossless". Đây là tất cả từ bộ nhớ và cố gắng tìm dữ liệu hiện tại. Nó ở đó nếu ai đó tìm kiếm trích dẫn. Tôi sẽ không bận tâm vì tôi đã quá già để quan tâm. Tôi cảm thấy mệt mỏi khi phải trải qua rất nhiều vấn đề hoang đường rõ ràng khi tôi quan tâm đến việc thu âm.


5

Nó được cho là mang lại sự đánh đổi tốt giữa chất lượng và băng thông. Trên thực tế, một tín hiệu thoại duy nhất chiếm 8 kHz chứ không phải 8 kbps băng thông. Mỗi mẫu được lượng tử hóa thành 8 bit, đạt tốc độ 64 kbps được sử dụng phổ biến.

Đọc thêm:


3
Khi tín hiệu thoại được lấy mẫu ở mức 8 khz, băng thông của nó được giả định là nhỏ hơn 4khz chứ không phải 8khz. Ngoài ra, tốc độ bit PCM 64 kbps thô có thể được hạ thấp bằng các kỹ thuật DPCM và ADPCM xuống còn 32kbps hoặc 16 kbps bất cứ khi nào cần hiệu quả.
Fat32

Điều đó đúng. Không chỉ vậy, nó được đảm bảo chiếm ít hơn 4 kHz thông qua bộ lọc thông thấp. Nếu không thì răng cưa xảy ra.
Emre

sau đó tôi đoán bạn nên xem lại câu trả lời của mình rằng "Trên thực tế, một tín hiệu thoại duy nhất chiếm 8 kHz, không phải 8 kbps, băng thông". Một tín hiệu thoại có thể chiếm toàn bộ phổ 20-20 khz, nhưng chỉ có 4khz đầu tiên được truyền đi.
Fat32

Tôi nghĩ bạn có ý nói tai người có thể nhận ra tần số trong phạm vi đó? Đó là một vấn đề khác.
Emre

2

Một lý do khác là, trước khi truyền tín hiệu số, âm thanh điện thoại được sử dụng được điều chế tương tự thành một kênh băng tần hẹp để nhiều cuộc gọi điện thoại có thể được gửi xuống một liên kết tương tự duy nhất (RF và rơle tháp vi sóng, v.v.) trước tiên phải được lọc thông thấp để thu hẹp băng thông cần thiết cho mỗi kênh để đóng gói số lượng kênh lớn nhất xuống một ống tương tự (nhưng ngay cả sau đó, vào một ngày xấu, người ta có thể nghe thấy một số cuộc gọi điện thoại liền kề làm nền tiếng ồn). Vì mọi người đã quen với các cuộc gọi đường dài thiếu tần số cao hơn 3,5 kHz hoặc hơn, băng thông này trở nên chấp nhận được về mặt thương mại ngay cả đối với các cuộc gọi nội hạt.

Tuy nhiên, ngay cả băng thông hẹp hơn đã được sử dụng cho truyền thông thăm dò không gian sớm, vì vậy 3,5 kHz có thể không phải là mức tối thiểu cho lời nói dễ hiểu.


1

Để làm sáng tỏ rất nhiều quan niệm sai lầm.

Đầu tiên, chưa bao giờ có modem 56 baud Hay. Baud là về sự thay đổi trạng thái, và được tối đa hóa ở mức 1200 baud. Bất cứ điều gì ngoài đó yêu cầu mã hóa tinh vi hơn.

Thứ hai, thính giác của con người nhận thức không chỉ các âm cơ bản, mà còn nhiều thứ tự của nội dung hài hòa vượt xa và vượt ra ngoài nền tảng. Khi nội dung hài đó bị loại bỏ, âm thanh nghe có vẻ ít tự nhiên và dễ chịu hơn. Âm thanh độ phân giải cao hơn (hơn 8Khz) vừa dễ hiểu hơn vừa dễ nghe hơn.

Thứ ba, Nyquist hoạt động trong một miền thời gian cố định. Nếu bạn bắt đầu lấy mẫu tại thời điểm chính xác của một đỉnh hoặc đáy, thì bạn chỉ cần gấp 2 lần tốc độ mẫu theo tần số. Tuy nhiên, trong thế giới thực, các điểm mẫu của bạn có thể xảy ra ở bất kỳ độ lệch ngẫu nhiên nào theo thời gian đến đỉnh hoặc đáy, do đó đòi hỏi tỷ lệ lấy mẫu cao hơn. Ví dụ: nếu bạn lấy mẫu sóng hình sin và khoảnh khắc mẫu của bạn xảy ra ở độ lệch chính xác 90 độ so với điểm bắt đầu của sóng, dữ liệu của bạn sẽ đề xuất một đường thẳng chứ không phải là sóng. Đối với các tông màu cơ bản, điều này là rất quan trọng. Đối với nội dung hài hòa, nó là một thứ tốt đẹp để có, với lợi nhuận giảm dần ở gần đầu cuối của phạm vi âm thanh. Nyquist áp dụng cho xử lý âm thanh là một trong những định lý được giải thích kém nhất hiện có.


Bạn có một tài liệu tham khảo cho tuyên bố không có modem nào trên 1200 baud không? Tôi tin rằng tuyên bố là không chính xác. Ngoài ra, với giá trị của nó, đoạn lấy mẫu là sai. Khi lấy mẫu sóng hình sin, bất kỳ tốc độ lấy mẫu nào lớn hơn hai lần tần số hình sin là đủ, bất kể pha.
MBaz

0

Như những người khác đã nói 4kHz là tiêu chuẩn, bởi vì nó tự nhiên mà giọng nói của con người là nguồn1 nguồn2 . Tôi đã tìm thấy một bài viết này đề cập đến các tần số cơ bản là bài viết 85Hz-300Hz thấp hơn nhiều . Cho dù điều này có hiệu quả trong thực tế hay không, tôi không thể chắc chắn. nhưng đáng để thử


0

Hệ thống điện thoại tương tự có bộ lọc tường gạch ở mức 3,9 KHz. Điều này thông qua tất cả các thông tin cần thiết cho lời nói dễ hiểu và cho phép đóng gói băng thông. Nhiều người đã bị tẩy não trong suy nghĩ của họ về băng thông cần thiết. Băng thông 20-20.000 Hz rất tốt cho âm nhạc, nhưng hoàn toàn không cần thiết để tái tạo lời nói của con người.

Ai đó vui lòng hỏi Nyquist về cách chúng tôi gửi tín hiệu fax 56 KBaud qua các đường dây tương tự với các bộ lọc tường gạch 3.9 KHz. Có ai nhớ máy fax không?

Nốt cao nhất trên đàn piano là 4186 Hz. Dải tần số của giọng nói của con người nhỏ hơn khoảng 1000 Hz. Trung C trên một cây đàn piano là khoảng 262 Hz, chỉ để đặt một số quan điểm về mọi thứ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.