Sự khác biệt giữa các phương pháp nén toàn cầu và phổ quát là gì?


12

Tôi hiểu rằng các phương thức nén có thể được chia thành hai bộ chính:

  1. toàn cầu
  2. địa phương

Tập đầu tiên hoạt động bất kể dữ liệu đang được xử lý, nghĩa là chúng không dựa vào bất kỳ đặc tính nào của dữ liệu và do đó không cần thực hiện bất kỳ quá trình tiền xử lý nào trên bất kỳ phần nào của tập dữ liệu (trước khi nén). Mặt khác, các phương pháp cục bộ phân tích dữ liệu, trích xuất thông tin thường cải thiện tốc độ nén.

Trong khi đọc về một số phương pháp này, tôi nhận thấy rằng phương pháp đơn nguyên này không phổ biến , điều này làm tôi ngạc nhiên vì tôi nghĩ "tính toàn cầu" và "tính phổ quát" đề cập đến cùng một điều. Phương thức đơn nguyên không dựa vào các đặc điểm của dữ liệu để tạo ra mã hóa của nó (nghĩa là nó là một phương thức toàn cầu), và do đó nó phải là toàn cầu / phổ quát, phải không?

Câu hỏi chính của tôi:

  • Sự khác biệt giữa các phương pháp phổ quát và toàn cầu là gì?
  • Những phân loại này có phải là từ đồng nghĩa không?

2
Bạn có thể liên kết đến / tham chiếu nơi bạn đọc rằng phương thức đơn nguyên không phổ biến không? Bối cảnh có thể giúp đỡ.
Không khí

3
Tôi ... không chắc điều này liên quan đến khoa học dữ liệu như thế nào. Có vẻ ngoài chủ đề cho trao đổi ngăn xếp này. Bạn có thể liên hệ điều này với khoa học dữ liệu?
Slater Victoroff

@SlaterTyranus Tôi ... cũng không chắc lắm (và điều đó khiến tôi suy nghĩ về một số câu hỏi khác mà tôi đã đăng). Ý tưởng của tôi là thêm câu hỏi này vì các phương thức nén chủ yếu được sử dụng trong truy xuất thông tin (chủ yếu trong quá trình lập chỉ mục). Nói chung, tôi thấy điều này liên quan đến hiệu quả và nó có thể được đưa vào khu vực kỹ năng hack của sơ đồ Venn này . Dù sao, tôi đoán sẽ rất tốt để thảo luận xem loại câu hỏi này có thuộc chủ đề hay không.
Rubens

@Rubens Có vẻ như là một cuộc thảo luận hợp lý, trong suy nghĩ của tôi, hiệu quả nói chuyện phù hợp với nhiều thứ giống như CS lý thuyết hơn là các kỹ năng hack rõ ràng . Trong suy nghĩ của tôi, các kỹ năng hack liên quan nhiều hơn đến những thứ như cơ sở dữ liệu, triển khai và kiến ​​thức về các công cụ.
Slater Victoroff

1
@SvanBalen Hai điểm chính: 1. Lý thuyết thông tin rất quan trọng trong một số phương pháp tiếp cận khoa học dữ liệu, nhưng không liên quan ở nhiều phương pháp khác. 2. Các nguyên tắc cơ bản vốn đã lạc đề, việc đặt câu hỏi chi tiết về thống kê hoặc đại số tuyến tính tương tự sẽ lạc đề mặc dù cả hai đều được yêu cầu nghiêm ngặt đối với khoa học dữ liệu hữu ích.
Slater Victoroff

Câu trả lời:


3

Hãy xem xét đoạn dữ liệu sau:

1010010110100101

Phổ quát - đây là các thuật toán nén chung là bất khả tri về dữ liệu. Một phiên bản thô của mã hóa chiều dài chạy sẽ thuộc loại này. Ưu điểm là nó rất nhanh để nén và giải nén. Nhược điểm là nó có thể cực kỳ không hiệu quả dựa trên dữ liệu được nén.

1111111111111111 -> 16 1 (trường hợp may mắn)

1010010110100101 -> 1010010110100101 (trường hợp không may mắn)

Cục bộ - phương pháp này sẽ xem xét các phân đoạn nhỏ hơn có độ dài cố định, giả sử 4, tìm kiếm các mẫu và nén chúng. Ví dụ. Dữ liệu này chỉ chứa hai loại mẫu này - 1010 và 0101. Các mẫu này có thể được biểu thị dưới dạng 0 và 1 và dữ liệu tổng thể sẽ là một bảng biểu thị ánh xạ và tương tự như 0101. Điều này có khả năng dẫn đến kết quả nhỏ hơn nhiều kích thước nén.

1010010110100101 -> 1010 0101 1010 0101 -> 0101 (0 = 1010,1 = 0101)

Toàn cầu - phương pháp này sẽ xem xét toàn bộ dữ liệu và tìm ra các mẫu tối ưu / tốt hơn nhiều để nén dữ liệu. Dữ liệu mẫu chỉ chứa một mẫu 10100101 và biểu thị nó là 00 cùng với bảng ánh xạ. Điều này có khả năng thu được kích thước nén nhỏ nhất có thể, nhưng cũng tính toán nặng nhất.

1010010110100101 -> 10100101 10100101 -> 00 (0 = 10100101)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.