Đọc môi tự động: suy luận những gì ai đó đang nói, dựa trên video họ nói

7

Một số người có thể đọc môi khá tốt: bằng cách xem ai đó đang nói, họ có thể nói người nói đang nói gì (ngay cả khi không nghe bài phát biểu).

Đã có công việc nào trong việc xây dựng phần mềm máy tính để đọc môi chưa? Nói cách khác, được cung cấp một video về ai đó đang nói, có thể xây dựng phần mềm để suy luận những gì người đó đang nói (chỉ có quyền truy cập vào luồng video, không có âm thanh)? Đã có nghiên cứu nào về vấn đề này, hoặc thậm chí là các hệ thống được triển khai chưa?

Bối cảnh và động lực: Ở Mỹ, một số luật nhất định có thể cấm ghi âm mà không có sự đồng ý. Tuy nhiên, nhìn chung không có sự cấm đoán nào đối với việc quay video mà không có sự đồng ý của những người được ghi lại. (Đó là lý do tại sao bạn thấy camera giám sát ở khắp mọi nơi và tại sao chúng chỉ quay video chứ không bao giờ âm thanh.) Tôi tò mò liệu công nghệ có đủ tiến bộ không, chỉ từ video, các phương pháp tự động có thể nói những gì mọi người đang nói - hoặc liệu điều đó có thể trở nên khả thi trong tương lai gần. Và, ngoài ý nghĩa riêng tư, một công nghệ như vậy có thể khá hữu ích.

— DW
nguồn

3

Dường như có một số công việc trong khu vực đó. Xem ví dụ bài báo này và các tài liệu tham khảo trong đó. Ngoài ra còn có các cuộc biểu tình của các hệ thống được triển khai trên youtube, xem ví dụ video này

— adrianN
nguồn

2

Có một số công việc gần đây ở đây:

LipNet: Đọc môi cấp độ câu . Yannis M. Assael, Brendan Shillingford, Shimon Whiteson và Nando de Freitas.

Họ đạt được độ chính xác 93% trên một đoạn video dài 3 giây với đầu nói, so với độ chính xác 52% từ những người đọc môi có kinh nghiệm. Họ có một video demo kết quả của họ.

— DW
nguồn