Với một số sự kiện trong một trò chơi, độ trễ tối đa để tạo ra âm thanh là gì mà người chơi sẽ liên kết chính xác âm thanh với sự kiện đó (và không nhận thấy độ trễ)?
Với một số sự kiện trong một trò chơi, độ trễ tối đa để tạo ra âm thanh là gì mà người chơi sẽ liên kết chính xác âm thanh với sự kiện đó (và không nhận thấy độ trễ)?
Câu trả lời:
Kết quả sau đây được tính cho đồng bộ hóa môi được coi là "lỗi đồng bộ a / v đáng chú ý nhất" .
Wikipedia nói
Đối với các ứng dụng truyền hình, âm thanh sẽ dẫn video không quá 15 mili giây và âm thanh sẽ bị trễ video không quá 45 mili giây. Đối với phim, đồng bộ hóa môi chấp nhận được coi là không quá 22 mili giây theo bất kỳ hướng nào.
Phòng thí nghiệm nhận thức âm thanh và truyền thông nói
Kết quả của thử nghiệm đã xác định rằng ngưỡng dẫn âm thanh trung bình cho phát hiện đồng bộ / v là 185,19 ms, với độ lệch chuẩn là 42,32 ms
ATSC nói
Thoạt nhìn có vẻ lỏng lẻo: +90 ms đến -185 ms như một Cửa sổ chấp nhận được
và
- Không thể phát hiện từ -100 ms đến +25 ms
- Có thể phát hiện ở -125 ms & +45 ms
- Trở nên không thể chấp nhận được ở -185 ms & +90 ms
(- Âm thanh bị trì hoãn, + Âm thanh nâng cao)
Để kết luận
Các kết quả không quá xa nhau. Có vẻ như độ trễ tối đa chấp nhận được là khoảng 150ms, tức là 9 khung hình với 60 khung hình mỗi giây.
Cảm thấy rằng, một vụ nổ bạn nhìn thấy và nghe thấy là một sự kiện duy nhất sẽ có dung sai được mô tả trong các câu trả lời khác - không quá ~ 50ms; một số người có thể nhạy cảm hơn (ví dụ: nhạc sĩ), vì vậy tôi khuyên bạn nên nhắm tới 30ms hoặc không quá 2 khung hình ở 60fps.
Tôi tin rằng khoảng cách nhận thức sẽ ảnh hưởng đến những dung sai đó. Mọi người mong đợi âm thanh xa sẽ bị chậm một chút, vì trong thực tế âm thanh bị chậm lại khoảng 1ms cho mỗi bước chân. Vì vậy, một vụ nổ trên 'bản đồ' trò chơi RTS được phóng to có thể có độ dung sai lớn hơn đối với độ trễ âm thanh so với người chơi tự bắn súng trong FPS.
Các trường hợp đặc biệt, chẳng hạn như có cảm giác thích hợp cho trò chơi âm nhạc / nhịp điệu có thể yêu cầu dung sai chặt chẽ hơn nhiều, 15-20ms hoặc thậm chí thấp hơn - ví dụ: nếu người chơi nghe cả "hành động đầu vào" như hát vào mic hoặc đập nhạc cụ bằng nhựa và cũng là âm thanh do hệ thống của bạn tạo ra cho cùng một sự kiện, sau đó độ trễ 50ms sẽ khiến âm thanh "gốc" và "phát" trộn lẫn một cách kỳ lạ.
Ngoài ra, hãy nhớ độ trễ giữa khởi động tệp âm thanh và "sự kiện" bên trong tệp âm thanh đó - trong nhiều clip âm thanh, "sự kiện" sẽ không ở ngay cạnh, bạn có thể có tiếng sét. đình công trong đó 'đình công' xảy ra 200ms sau khi bắt đầu, điều này là hiển nhiên đối với mọi người, và hầu như tất cả các tệp âm thanh, thậm chí là một tiếng trống, sẽ có một số chậm trễ ở đó.
Thị giác và thính giác được kết nối sâu sắc trong nhận thức của con người, và nếu một trong số họ nói lắp tương đối với người khác, thì nó sẽ có thể nhận thấy được. Sẽ không ổn nếu hầu hết thời gian rất nhanh nhưng đôi khi có độ trễ 0,2 giây trong khi tải thứ gì đó - mọi người sẽ nhận thấy những tình huống như vậy. Đây là lý do tại sao âm thanh thường được chạy trên một luồng riêng biệt, tách biệt với các hoạt động khác và chỉ nhận được thông báo nhanh về những clip được tải sẵn nên được phát.
Bất kỳ tình huống nào người chơi gây ra âm thanh (trò chơi âm nhạc, súng trong FPS) sẽ cần độ trễ rất thấp vì người chơi đã gửi một xung lực để làm cho nó xảy ra tại thời điểm đó, vì vậy với một nhạc sĩ nghe nhạc cụ của họ bị trì hoãn, sẽ đặc biệt nhận thức được sự chậm trễ rất nhỏ. Các kỹ sư âm thanh băn khoăn về việc trì hoãn ghi âm dưới 5 mSec làm hỏng "rãnh"
Tạp chí của Học viện Thính học Hoa Kỳ tuyên bố rằng mọi người (không chỉ là nhạc sĩ), khi nghe giọng nói của họ bị trì hoãn, nhận thức được sự chậm trễ chỉ là 3mSec, và độ trễ dài hơn 10 mSec bị phản đối 90% thời gian.
Con người sử dụng độ trễ thời gian giữa hai tai để lấy thông tin định hướng và do đó phải có khả năng xử lý và trích xuất thông tin từ độ trễ dưới 1mSec
185,19 ms được trích dẫn ở trên là không liên quan vì nó liên quan đến một lỗi âm thanh hàng đầu, và dù sao đi nữa, những gì mọi người thấy chấp nhận được khi xem một cách thụ động một bộ phim, không tích cực tham gia vào một trò chơi.
Câu trả lời được chấp nhận ở đây chủ yếu thảo luận về nhận thức về đồng bộ hóa âm thanh trong việc xem video thụ động. Trong những trường hợp này, khán giả không thể dễ dàng xác định chính xác khi nào âm thanh sẽ phát ngoại trừ bằng cách tham dự để phát hiện các dấu hiệu trong video. Điều này có nghĩa là họ đã dự đoán hạn chế về âm thanh.
Có hai trường hợp quan trọng trong các trò chơi mà giả định dự đoán thấp này không giữ được:
Khi chính người chơi gây ra âm thanh (như SamB chỉ ra), vì vậy ngay từ khi họ hình thành ý định nhấn nút, họ biết chính xác khi nào họ muốn nghe thấy âm thanh.
Khi âm thanh được phát ra theo nhịp định kỳ , như trong các trò chơi âm nhạc hoặc bất cứ thứ gì có bộ đếm thời gian / bộ đếm tích tắc, nhịp điệu này cho phép người chơi dự đoán âm thanh tiếp theo và thông báo nếu phát hết thời gian.
Trong bài nói chuyện này từ GDC 2013, Mathieu Pavageau lập luận rằng người chơi có thể nhận thấy sự khác biệt về độ chính xác đồng bộ trên khoảng 5ms , ít tha thứ hơn nhiều so với các ví dụ từ đồng bộ môi sẽ gợi ý. Kiểm tra các phần "Ví dụ về nhận thức thời gian" và "Ví dụ về trò chơi Ubisoft" để tự mình nghe. Bạn có thể nghe thấy menu Rayman Origins không phát ra âm thanh "lag" mỗi lần khi được đồng bộ hóa trong vòng 16 ms (khung hình video), nhưng khi được đồng bộ hóa trong vòng 5 ms thì âm thanh rõ hơn và rõ hơn.
Pavageau ủng hộ việc sử dụng một cuộc gọi lại âm thanh cấp thấp để có được độ chính xác của khung phụ này nếu bạn muốn chơi trò chơi nhịp nhàng chặt chẽ của loại này.
Đối với các trò chơi yêu cầu một người phản ứng với tín hiệu âm thanh, cứ sau một phần nghìn giây âm thanh bị trễ sẽ khiến phản ứng của người đó cũng bị trì hoãn. Một người chỉ xem phim hoặc cắt cảnh có thể không chú ý quá nhiều nếu âm thanh và video không đồng bộ chính xác, nhưng điều quan trọng và đôi khi quan trọng là âm thanh phải đồng bộ với những gì người chơi dự kiến sẽ làm .
Về lý thuyết, mọi thứ trên 50ms đều có thể nhận thấy khi liên quan đến hình ảnh, ở 25ms bạn có thể bắt đầu nghe một âm thanh và độ trễ của nó là hai âm thanh tách biệt, vì vậy tôi sẽ nói rằng tôi rất khuyên bạn nên ở dưới 50ms và nếu bạn thậm chí có thể ở một cái gì đó từ 5ms đến 15ms nó sẽ thực sự tốt đẹp.
Tôi hy vọng điều này sẽ giúp bạn!