Các lược đồ nén hình ảnh / video cực kỳ tính toán mang lại khả năng nén tốt hơn so với JPEG / H.264 tiêu chuẩn công nghiệp

Tôi đang cố gắng tìm kiếm các lược đồ nén hình ảnh / video mang lại hiệu suất nén vượt trội (giữ chất lượng hình ảnh là không đổi) khi so sánh với các tiêu chuẩn công nghiệp được áp dụng rộng rãi (ví dụ JPEG / H.264), nhưng vì lý do chúng quá tính toán hoặc tài nguyên chuyên sâu, thực hiện chúng trên các máy trạm dựa trên CPU là không khả thi và do đó không được chấp nhận trong các tiêu chuẩn chung.

Tôi chỉ có thể nghĩ về nén fractal là một ví dụ tốt. Cộng đồng có biết thêm bất kỳ ví dụ nào không?

— Ang Zi Ping
nguồn

Theo như hình ảnh, có nhiều thuật toán phức tạp hơn JPEG, chẳng hạn như JPEG2000. JPEG2000 cung cấp các tỷ lệ nén được cải thiện, nhưng tôi không chắc rằng việc thiếu sự chấp nhận của nó là do độ phức tạp tính toán. Hơn nữa, JPEG được coi là "đủ tốt" cho hầu hết các ứng dụng, vì vậy không có động lực thực sự để sử dụng bất cứ thứ gì tốt hơn (đặc biệt là vì lưu trữ đĩa rất phong phú trong các hệ thống hiện đại). Những người quan tâm đến chất lượng hình ảnh tối đa, như các nhiếp ảnh gia chuyên nghiệp, thường tránh xa việc nén hoàn toàn, dựa vào các ảnh chụp thô của đầu ra cảm biến hình ảnh.

— Jason R

Tôi nghĩ chất lượng của JPEG phụ thuộc nhiều vào lượng dữ liệu bạn vứt đi hơn là thời gian bạn sử dụng để tính toán nó.

— endolith

Phân tích thành phần chính / Biến đổi KLT / Hotelling có thể thực hiện công việc tốt hơn nhiều so với DCT khi biểu diễn tín hiệu với một số lượng nhỏ các hàm cơ bản, nhưng khá tốn kém về mặt tính toán. Tôi không chắc chắn nếu có ai thực sự thực hiện đầy đủ các chương trình nén với họ.

— eglaser

@eglaser: Muốn xây dựng trên PCA / KLT / Hotelling? Sẽ là tốt nếu bạn có thể gửi câu trả lời của bạn như là một câu trả lời.

— Ang Zi Ping

@eglaser KLT tốt hơn DCT về độ nén năng lượng. Tuy nhiên, nó không nhất thiết có nghĩa là nó là một codec tốt hơn; điều này là do KLT cho mỗi phần hình ảnh / video là duy nhất và do đó, không chỉ bạn phải truyền các hệ số kết quả, bạn cũng phải gửi kernel.

— Dipan Mehta

Có nhiều khía cạnh khác nhau của nén - cho dù bạn đang đề cập đến hình ảnh hoặc video. (Có thể âm thanh là hoàn toàn khác nhau vì vậy tôi không đề cập đến điều này ở đây).

Nếu bạn thực sự nhìn vào lịch sử của tiêu chuẩn nén, khi chúng được hình thành lần đầu tiên - bộ mã hóa thời gian thực MPEG1 rất hiếm. CPU tại thời điểm đó không đủ để biến nó thành thời gian thực; tuy nhiên, không phải sự phức tạp xử lý (một mình) đã dừng các thuật toán phức tạp hơn được sử dụng theo codec. (Có lẽ yếu tố chính chịu trách nhiệm đưa vào / loại trừ các thuật toán nhất định là a. Bằng sáng chế, b. Tính khả thi của việc triển khai).

Tuy nhiên, tôi muốn diễn đạt lại câu hỏi đơn giản hơn một chút:

Những nghiên cứu khác về nén có sẵn mà vẫn sẽ được tung ra thị trường (hoặc hoàn toàn không xuất hiện nhưng có thể có giá trị đối với một số ứng dụng)?

Dưới đây là một số điểm để xem xét:

1. Biến đổi tốt hơn?

DCT cho đến nay đã được chuyển đổi phổ quát trên tất cả các codec. Tuy nhiên, có nhiều tài liệu nghiên cứu cho thấy Wavelets có thể tốt hơn. Thật vậy, chỉ có JPEG2000 bao gồm các bước sóng - nhưng bản thân tiêu chuẩn đó không phải là thành công lớn. Có lẽ nó là tốt hơn so với DCT một cách nào đó; đặc biệt có những tuyên bố rằng Wavelets vượt trội hơn DCT [Xem: Ref 1]

Tôi nghĩ wavelet là tính toán đắt hơn DCT (một phần vì 8x8 triển khai DCT được tối ưu hóa cao). Nhưng tôi đoán rằng tôi đã không thực sự bay nhiều như vậy bởi vì từ góc độ thị trường bởi vì DCT vào thời điểm đó đã lan rộng hơn rất nhiều và sự khác biệt trong cải tiến không quá lớn đối với mọi người để chuyển đổi.

$B$

Trong khi, đây đã là một phần của tiêu chuẩn trong H.264 - điều này vẫn chưa được khai thác đầy đủ. Cần phải thực hiện tìm kiếm lớn như vậy để ước tính chuyển động thực tế khả thi. Hầu hết các bộ mã hóa H.264 vẫn còn non trẻ trong việc khai thác hết tiềm năng của việc này.

3. Nén hình ảnh / video
có thể mở rộng Nén hình ảnh và video có thể mở rộng lại là một chén thánh về cách nhiều mã hóa mô tả có thể được thực hiện cho hình ảnh và video. Về cơ bản, cùng một hình ảnh hoặc video có thể được mã hóa ở nhiều Độ phân giải, lượng tử hóa (chất lượng) hoặc tốc độ khung hình. Chúng tạo ra các lớp chất lượng khác nhau so với tốc độ bit ngay trong cùng một luồng - và máy chủ phát trực tuyến thực sự có thể điều chỉnh bitrate và chất lượng một cách linh hoạt để phù hợp nhất với video về chất lượng. Xem [Tham chiếu 3], [Tham khảo 4], [Tham khảo 5]

Trong số này, chỉ có thành công thực sự là JPEG tiến bộ thực sự hữu ích cho các trang web và thực sự hữu ích. Một lần nữa, trong khi lời hứa về luồng bit thích ứng động là rất lớn nhưng nó chỉ hoạt động nếu có các hệ thống thực tế trong đó việc ước tính tốc độ bit như vậy là có thể và loại thích ứng có thể phục vụ một số mục đích thực sự. Tuy nhiên, trong miền video, mặc dù có sự hỗ trợ của điều này trong các tiêu chuẩn (MPEG2, MPEG4 và H.264) - hầu như không có cách sử dụng này.

4. Video đối tượng
Đây có lẽ là chén thánh cuối cùng của Nén. Tuy nhiên, video đối tượng [Ref 6] do chính cơ thể chuẩn MPEG khởi xướng, điều này cũng được hỗ trợ bởi nghiên cứu sâu rộng.

Ý tưởng cơ bản là phân đoạn video theo các đối tượng riêng biệt và sau đó trên mỗi đối tượng như vậy có thể được coi là mặt phẳng riêng biệt. mỗi đối tượng và được áp dụng với tốc độ bit khác nhau, lượng tử hóa, tốc độ khung hình và dự đoán hiệu quả hơn nhiều có thể xảy ra. Ngoài ra, người ta có thể điều khiển các đối tượng như vậy như cách bạn có thể làm công cụ trong photoshop / gimp.

Tuy nhiên, hóa ra, việc phân chia hình ảnh và video trong thế giới thực với các đối tượng có liên quan đến nhận thức - là một vấn đề khó! Vì vậy, ngay cả khi tôi có bộ mã hóa / giải mã - tôi cần robus và hệ thống phân đoạn thời gian thực để làm mọi thứ có thể. Đây là một vấn đề thực sự mở về cách bạn áp dụng video dưới dạng video được xếp lớp như vậy để làm cho nó hoạt động.

5. Nhiều kích thước
Ngoài ra - còn có codec cho video âm thanh nổi (hay còn gọi là multiview) và video 3D (khái niệm gần như tương tự), ngoài ra còn cố gắng giảm sự dư thừa trong chiều bổ sung. Mặc dù đây vẫn là nghiên cứu đang diễn ra ở đây, H.264 hiện có một hồ sơ cho việc này. Điều tương tự cũng đúng với mã hóa Điện ảnh.

Có nhiều dự án nghiên cứu vẫn còn trong lĩnh vực này - tuy nhiên, hiện tại, nén video là một thị trường hàng hóa. Và nghiên cứu không thực sự tạo ra ứng dụng mới hoặc nếu có vấn đề về tính khả thi trong việc triển khai sẽ không tồn tại trên thực tế mặc dù đó là sự khéo léo.

Hi vọng điêu nay co ich.

Người giới thiệu:

— Mehan
nguồn