Bối cảnh: Tôi đang làm việc trên một ứng dụng iPhone (được nhắc đến trong một số bài đăng khác ) rằng "nghe" ngáy / thở khi đang ngủ và xác định xem có dấu hiệu ngưng thở khi ngủ không (như một màn hình trước cho "phòng thí nghiệm ngủ" kiểm tra). Ứng dụng chủ yếu sử dụng "sự khác biệt quang phổ" để phát hiện tiếng ngáy / hơi thở và nó hoạt động khá tốt (tương quan khoảng 0,85--0,90) khi thử nghiệm với các bản ghi trong phòng thí nghiệm ngủ (thực sự khá ồn).
Vấn đề: Hầu hết tiếng ồn "phòng ngủ" (quạt, v.v.) tôi có thể lọc qua một số kỹ thuật và thường phát hiện hơi thở một cách đáng tin cậy ở mức S / N mà tai người không thể phát hiện ra. Vấn đề là tiếng ồn. Không có gì lạ khi có tivi hoặc radio chạy ở chế độ nền (hoặc đơn giản là có ai đó nói chuyện từ xa), và nhịp điệu của giọng nói rất khớp với nhịp thở / ngáy. Trên thực tế, tôi đã chạy một bản ghi âm của tác giả / người kể chuyện quá cố Bill Holm thông qua ứng dụng và về cơ bản nó không thể phân biệt được với ngáy theo nhịp điệu, sự thay đổi mức độ và một số biện pháp khác. (Mặc dù tôi có thể nói rằng rõ ràng anh ta không bị ngưng thở khi ngủ, ít nhất là trong khi không tỉnh táo.)
Vì vậy, đây là một chút của một cú sút xa (và có lẽ là một loạt các quy tắc diễn đàn), nhưng tôi đang tìm kiếm một số ý tưởng về cách phân biệt giọng nói. Chúng ta không cần phải lọc những tiếng ngáy bằng cách nào đó (nghĩ rằng điều đó sẽ tốt), nhưng chúng ta chỉ cần một cách để từ chối vì âm thanh "quá ồn" bị ô nhiễm quá mức với giọng nói.
Có ý kiến gì không?
Các tệp được xuất bản: Tôi đã đặt một số tệp trên dropbox.com:
Đầu tiên là một bản nhạc rock (tôi đoán) khá ngẫu nhiên, và thứ hai là bản thu âm của bài phát biểu muộn của Bill Holm. Cả hai (mà tôi sử dụng làm mẫu "nhiễu" của tôi được phân biệt với tiếng ngáy) đã được trộn lẫn với tiếng ồn để làm nhiễu tín hiệu. . (Bạn bị ho vì tiền thưởng.)
Tất cả ba tệp đã được đổi tên từ ".wav" thành "_wav.dat", vì nhiều trình duyệt khiến việc tải xuống các tệp wav trở nên khó khăn một cách điên cuồng. Chỉ cần đổi tên chúng thành ".wav" sau khi tải xuống.
Cập nhật: Tôi nghĩ rằng entropy là "thực hiện mánh khóe" đối với tôi, nhưng hóa ra chủ yếu là đặc thù của các trường hợp thử nghiệm mà tôi đang sử dụng, cộng với một thuật toán được thiết kế quá tốt. Trong trường hợp chung, entropy đang làm rất ít cho tôi.
Sau đó, tôi đã thử một kỹ thuật trong đó tôi tính toán FFT (sử dụng một số chức năng cửa sổ khác nhau) về cường độ tín hiệu tổng thể (tôi đã thử công suất, thông lượng quang phổ và một số biện pháp khác) lấy mẫu khoảng 8 lần một giây (lấy số liệu thống kê từ chu kỳ FFT chính đó là cứ sau 1024/8000 giây). Với 1024 mẫu, điều này bao gồm một phạm vi thời gian khoảng hai phút. Tôi đã hy vọng rằng tôi có thể nhìn thấy các mô hình trong trường hợp này do nhịp điệu chậm của tiếng ngáy / hơi thở so với giọng nói / âm nhạc (và đó cũng có thể là một cách tốt hơn để giải quyết vấn đề " thay đổi "), nhưng trong khi có những gợi ý của một mô hình ở đây và ở đó, không có gì tôi thực sự có thể bám vào.
( Thông tin thêm: Đối với một số trường hợp, FFT của cường độ tín hiệu tạo ra một mẫu rất khác biệt với cực đại mạnh ở khoảng 0,2Hz và hài bậc cầu thang. Nhưng hầu hết thời gian, mẫu và âm nhạc có thể tạo ra ít khác biệt hơn Các phiên bản của một mẫu tương tự. Có thể có một số cách để tính giá trị tương quan cho một bằng khen, nhưng có vẻ như sẽ yêu cầu đường cong phù hợp với đa thức bậc 4, và làm điều đó một lần trong điện thoại có vẻ không thực tế.)
Tôi cũng đã cố gắng thực hiện cùng một FFT biên độ trung bình cho 5 "dải" riêng lẻ mà tôi đã chia phổ thành. Các băng tần là 4000-2000, 2000-1000, 1000-500 và 500-0. Mẫu cho 4 băng tần đầu tiên nhìn chung tương tự như mẫu tổng thể (mặc dù không có băng tần "nổi bật" thực sự và tín hiệu nhỏ thường biến mất ở các dải tần số cao hơn), nhưng băng tần 500-0 nói chung chỉ là ngẫu nhiên.
Bounty: Tôi sẽ mang lại cho Nathan tiền thưởng, mặc dù anh ta không đưa ra bất cứ điều gì mới, cho rằng đó là gợi ý hữu ích nhất cho đến nay. Tuy nhiên, tôi vẫn có một vài điểm tôi sẵn sàng trao cho người khác, nếu họ thông qua một số ý tưởng hay.