Độ trễ âm thanh tối đa trước khi người chơi thông báo?


38

Với một số sự kiện trong một trò chơi, độ trễ tối đa để tạo ra âm thanh là gì mà người chơi sẽ liên kết chính xác âm thanh với sự kiện đó (và không nhận thấy độ trễ)?


Không nhiều. Tôi đoán nó phải ít hơn 1/10 giây. Mặc dù cá nhân, tôi có thể nhận thấy nó nếu nó nhiều hơn một vài khung hình ở 60 FPS.
Almo

Đừng quên rằng trong hầu hết các trường hợp, đầu ra được kết xuất cũng sẽ có một số độ trễ, một số trong đó sẽ đến từ màn hình. Có thể mất hơn 100 ms để kết quả đầu vào của người chơi được hiển thị trên màn hình. Xem anandtech.com/show/2804
Adam

1
Đó là khoảng 20 mili giây khi chơi một nhạc cụ, khoảng 80 mili giây khi bạn là người nghe. Đây chỉ là kinh nghiệm cá nhân của tôi, số dặm của bạn có thể thay đổi.
rwols

Nhiều hơn bất kỳ thời gian cụ thể bạn cần sự nhất quán. Miễn là mọi thứ đều có cùng độ trễ, bạn có thể nằm trong lý do. Nếu mọi thứ trễ 100ms bạn có thể không thực sự chú ý đến nó nhưng nếu một số âm thanh gần ngay lập tức và phần còn lại là 100ms hoặc một cái gì đó ở giữa thì bạn sẽ nhận thấy.
0xFADE

Nếu bạn quan tâm đến một số loại hành vi thực tế, bạn có thể coi một số độ trễ cho các sự kiện ở xa người nghe là một điều gì đó tích cực.
Darkwings

Câu trả lời:


48

Kết quả sau đây được tính cho đồng bộ hóa môi được coi là "lỗi đồng bộ a / v đáng chú ý nhất" .


Wikipedia nói

Đối với các ứng dụng truyền hình, âm thanh sẽ dẫn video không quá 15 mili giây và âm thanh sẽ bị trễ video không quá 45 mili giây. Đối với phim, đồng bộ hóa môi chấp nhận được coi là không quá 22 mili giây theo bất kỳ hướng nào.


Phòng thí nghiệm nhận thức âm thanh và truyền thông nói

Kết quả của thử nghiệm đã xác định rằng ngưỡng dẫn âm thanh trung bình cho phát hiện đồng bộ / v là 185,19 ms, với độ lệch chuẩn là 42,32 ms


ATSC nói

Thoạt nhìn có vẻ lỏng lẻo: +90 ms đến -185 ms như một Cửa sổ chấp nhận được

  • Không thể phát hiện từ -100 ms đến +25 ms
  • Có thể phát hiện ở -125 ms & +45 ms
  • Trở nên không thể chấp nhận được ở -185 ms & +90 ms

(- Âm thanh bị trì hoãn, + Âm thanh nâng cao)


Để kết luận

Các kết quả không quá xa nhau. Có vẻ như độ trễ tối đa chấp nhận được là khoảng 150ms, tức là 9 khung hình với 60 khung hình mỗi giây.


3
"Nếu bạn có độ trễ, đó phải là video bị trì hoãn." Dường như cần phải đảo ngược, bài báo ATSC nêu rõ rằng mọi người mong đợi / chịu đựng âm thanh xảy ra một chút sau khi nhìn (vì âm thanh trong cuộc sống thực bị chậm lại khoảng 1 ms mỗi phút), nhưng không liên kết đúng các sự kiện nếu sự kiện video xảy ra sau âm thanh.
Peteris

Bạn nói đúng, tôi hoàn toàn hiểu lầm. Cảm ơn bạn. (Tôi đã chỉnh sửa)
Heckel

1
Tôi có thể nói với bạn từ kinh nghiệm cá nhân rằng điều này thậm chí khác nhau giữa hai tai trong cùng một người. Tôi có một tình trạng tiền đình hiếm gặp thực sự khiến não tôi xử lý kích thích thính giác ở tai trái của tôi bị chậm trễ đáng kể so với tai phải. Vào một ngày tồi tệ, điều này gây ra chóng mặt, nhưng hầu hết thời gian là có thể chịu đựng được. Vì vậy, có, điều này là vô cùng chủ quan.
Andon M. Coleman

Nơi nào bạn nhận được 150ms? Nguồn của bạn rõ ràng trung bình khoảng 45ms.
Miles Rout

Wikipedia nói 45ms, nhưng nó không nhất thiết là nguồn đáng tin cậy nhất. Nguồn thứ hai cho biết 185,19 ms và 125ms thứ ba cho đến khi nó trở nên đáng chú ý. Bạn có thể trích dẫn nguồn để giúp tôi hiểu tôi sai ở đâu không?
Heckel

9

Nó phụ thuộc vào sự kiện

Cảm thấy rằng, một vụ nổ bạn nhìn thấy và nghe thấy là một sự kiện duy nhất sẽ có dung sai được mô tả trong các câu trả lời khác - không quá ~ 50ms; một số người có thể nhạy cảm hơn (ví dụ: nhạc sĩ), vì vậy tôi khuyên bạn nên nhắm tới 30ms hoặc không quá 2 khung hình ở 60fps.

Tôi tin rằng khoảng cách nhận thức sẽ ảnh hưởng đến những dung sai đó. Mọi người mong đợi âm thanh xa sẽ bị chậm một chút, vì trong thực tế âm thanh bị chậm lại khoảng 1ms cho mỗi bước chân. Vì vậy, một vụ nổ trên 'bản đồ' trò chơi RTS được phóng to có thể có độ dung sai lớn hơn đối với độ trễ âm thanh so với người chơi tự bắn súng trong FPS.

Các trường hợp đặc biệt, chẳng hạn như có cảm giác thích hợp cho trò chơi âm nhạc / nhịp điệu có thể yêu cầu dung sai chặt chẽ hơn nhiều, 15-20ms hoặc thậm chí thấp hơn - ví dụ: nếu người chơi nghe cả "hành động đầu vào" như hát vào mic hoặc đập nhạc cụ bằng nhựa và cũng là âm thanh do hệ thống của bạn tạo ra cho cùng một sự kiện, sau đó độ trễ 50ms sẽ khiến âm thanh "gốc" và "phát" trộn lẫn một cách kỳ lạ.

Ngoài ra, hãy nhớ độ trễ giữa khởi động tệp âm thanh và "sự kiện" bên trong tệp âm thanh đó - trong nhiều clip âm thanh, "sự kiện" sẽ không ở ngay cạnh, bạn có thể có tiếng sét. đình công trong đó 'đình công' xảy ra 200ms sau khi bắt đầu, điều này là hiển nhiên đối với mọi người, và hầu như tất cả các tệp âm thanh, thậm chí là một tiếng trống, sẽ có một số chậm trễ ở đó.

Đừng đo trung bình - nhìn vào trường hợp xấu nhất

Thị giác và thính giác được kết nối sâu sắc trong nhận thức của con người, và nếu một trong số họ nói lắp tương đối với người khác, thì nó sẽ có thể nhận thấy được. Sẽ không ổn nếu hầu hết thời gian rất nhanh nhưng đôi khi có độ trễ 0,2 giây trong khi tải thứ gì đó - mọi người sẽ nhận thấy những tình huống như vậy. Đây là lý do tại sao âm thanh thường được chạy trên một luồng riêng biệt, tách biệt với các hoạt động khác và chỉ nhận được thông báo nhanh về những clip được tải sẵn nên được phát.


5

Bất kỳ tình huống nào người chơi gây ra âm thanh (trò chơi âm nhạc, súng trong FPS) sẽ cần độ trễ rất thấp vì người chơi đã gửi một xung lực để làm cho nó xảy ra tại thời điểm đó, vì vậy với một nhạc sĩ nghe nhạc cụ của họ bị trì hoãn, sẽ đặc biệt nhận thức được sự chậm trễ rất nhỏ. Các kỹ sư âm thanh băn khoăn về việc trì hoãn ghi âm dưới 5 mSec làm hỏng "rãnh"

Tạp chí của Học viện Thính học Hoa Kỳ tuyên bố rằng mọi người (không chỉ là nhạc sĩ), khi nghe giọng nói của họ bị trì hoãn, nhận thức được sự chậm trễ chỉ là 3mSec, và độ trễ dài hơn 10 mSec bị phản đối 90% thời gian.

Con người sử dụng độ trễ thời gian giữa hai tai để lấy thông tin định hướng và do đó phải có khả năng xử lý và trích xuất thông tin từ độ trễ dưới 1mSec

185,19 ms được trích dẫn ở trên là không liên quan vì nó liên quan đến một lỗi âm thanh hàng đầu, và dù sao đi nữa, những gì mọi người thấy chấp nhận được khi xem một cách thụ động một bộ phim, không tích cực tham gia vào một trò chơi.


4

Câu trả lời được chấp nhận ở đây chủ yếu thảo luận về nhận thức về đồng bộ hóa âm thanh trong việc xem video thụ động. Trong những trường hợp này, khán giả không thể dễ dàng xác định chính xác khi nào âm thanh sẽ phát ngoại trừ bằng cách tham dự để phát hiện các dấu hiệu trong video. Điều này có nghĩa là họ đã dự đoán hạn chế về âm thanh.

Có hai trường hợp quan trọng trong các trò chơi mà giả định dự đoán thấp này không giữ được:

  1. Khi chính người chơi gây ra âm thanh (như SamB chỉ ra), vì vậy ngay từ khi họ hình thành ý định nhấn nút, họ biết chính xác khi nào họ muốn nghe thấy âm thanh.

  2. Khi âm thanh được phát ra theo nhịp định kỳ , như trong các trò chơi âm nhạc hoặc bất cứ thứ gì có bộ đếm thời gian / bộ đếm tích tắc, nhịp điệu này cho phép người chơi dự đoán âm thanh tiếp theo và thông báo nếu phát hết thời gian.

Trong bài nói chuyện này từ GDC 2013, Mathieu Pavageau lập luận rằng người chơi có thể nhận thấy sự khác biệt về độ chính xác đồng bộ trên khoảng 5ms , ít tha thứ hơn nhiều so với các ví dụ từ đồng bộ môi sẽ gợi ý. Kiểm tra các phần "Ví dụ về nhận thức thời gian" và "Ví dụ về trò chơi Ubisoft" để tự mình nghe. Bạn có thể nghe thấy menu Rayman Origins không phát ra âm thanh "lag" mỗi lần khi được đồng bộ hóa trong vòng 16 ms (khung hình video), nhưng khi được đồng bộ hóa trong vòng 5 ms thì âm thanh rõ hơn và rõ hơn.

Pavageau ủng hộ việc sử dụng một cuộc gọi lại âm thanh cấp thấp để có được độ chính xác của khung phụ này nếu bạn muốn chơi trò chơi nhịp nhàng chặt chẽ của loại này.


2

Đối với các trò chơi yêu cầu một người phản ứng với tín hiệu âm thanh, cứ sau một phần nghìn giây âm thanh bị trễ sẽ khiến phản ứng của người đó cũng bị trì hoãn. Một người chỉ xem phim hoặc cắt cảnh có thể không chú ý quá nhiều nếu âm thanh và video không đồng bộ chính xác, nhưng điều quan trọng và đôi khi quan trọng là âm thanh phải đồng bộ với những gì người chơi dự kiến ​​sẽ làm .


-1

Về lý thuyết, mọi thứ trên 50ms đều có thể nhận thấy khi liên quan đến hình ảnh, ở 25ms bạn có thể bắt đầu nghe một âm thanh và độ trễ của nó là hai âm thanh tách biệt, vì vậy tôi sẽ nói rằng tôi rất khuyên bạn nên ở dưới 50ms và nếu bạn thậm chí có thể ở một cái gì đó từ 5ms đến 15ms nó sẽ thực sự tốt đẹp.

Tôi hy vọng điều này sẽ giúp bạn!

https://en.wikipedia.org/wiki/Delayed_Audective_Feedback


Câu trả lời này không thêm bất kỳ lời khuyên mới nào chưa có trong các câu trả lời hiện có, vì vậy nó có nguy cơ bị tắt chỉ là một phích cắm hoặc quảng cáo cho thông tin liên hệ của công ty bạn. StackExchange không nhằm mục đích quảng bá dịch vụ, vì vậy tôi khuyên bạn nên xóa phần đó (mọi người vẫn có thể tra cứu bạn bằng tên người dùng của bạn) và thêm chi tiết về lý do tại sao bạn đề xuất thời gian cụ thể ngoài những gì được nêu trong câu trả lời hiện có.
DMGregory

Không có câu trả lời nào chúng tôi thấy là đúng với chúng tôi, chúng tôi là một nhóm kỹ sư âm thanh và âm học là điều đầu tiên chúng tôi học được. Một số câu trả lời đã nói hơn 100ms trong khi những câu nói khác -100s & + 85 thì đó là câu trả lời như thế nào? -50ms hoặc + 50ms vẫn còn 50ms chênh lệch giữa hành động và âm thanh. chúng tôi chỉ cố gắng giúp nếu email của chúng tôi gây khó chịu, chúng tôi sẽ xóa nó.
X-Raysound

Xem, ví dụ, câu trả lời của Peteris từ 3 năm trước, đưa ra mức giới hạn trên tuyệt đối là 50 ms và khuyến nghị thấp hơn như câu trả lời này, hoặc tham chiếu đến bài nói chuyện Mathieu Pavageau đề xuất 5ms là mục tiêu lý tưởng. Điều đó dường như bao trùm toàn bộ những gì có trong câu trả lời này, trừ khi bạn muốn mở rộng các khuyến nghị? Ví dụ: nếu có chi tiết từ liên kết Wikipedia mà bạn cảm thấy có liên quan, thì tốt nhất nên tóm tắt chúng trong văn bản của câu trả lời (trong trường hợp trang được liên kết thay đổi trong tương lai).
DMGregory

Xin lỗi về việc chúng tôi đã không đọc tất cả các câu trả lời mà chúng tôi chỉ bỏ qua một vài câu sau đó chúng tôi đã nói những gì chúng tôi biết và thực thi nó bằng một liên kết wikipedia, chúng tôi vẫn là người mới tham gia diễn đàn, chúng tôi đang cố gắng giúp đỡ về âm thanh các vấn đề liên quan nhưng chúng tôi đã không tìm thấy nhiều haha
X-Raysound

Đừng lo lắng. Huấn luyện người dùng mới là một trong những lý do những bình luận này tồn tại. :) Bạn sẽ nhanh chóng nhận được câu trả lời của StackExchange - điều đó chỉ có nghĩa là nghĩ về chúng như các tài nguyên tham khảo dài hạn, thay vì trả lời trên diễn đàn.
DMGregory
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.