So sánh gần đây nhất của các tập tin chữ ký và các chỉ số đảo ngược là gì?


7

Các bài báo hiện đại về các chỉ mục tìm kiếm thường chứa một tuyên bố rằng các chỉ mục đảo ngược (danh sách đăng bài) vượt trội hơn hẳn so với các tệp chữ ký (bộ lọc nở). Dưới đây là một số ví dụ từ các bài báo được xuất bản vào năm 2016:

Trong khi kỹ thuật [tệp chữ ký] này cung cấp chi phí tính toán tương đối thấp, các nghiên cứu của Zobel et al. [1998] đã chỉ ra rằng các tệp đảo ngược vượt trội đáng kể so với các tệp chữ ký.

Các chỉ mục đảo ngược đã được đánh giá là cấu trúc tổng quát nhất và hoạt động tốt (Zobel et al., 1998)

Mỗi bài báo dường như trích dẫn Zobel và cộng sự, các tệp đảo ngược so với các tệp chữ ký để lập chỉ mục văn bản .

Tuy nhiên, nếu tôi đang đọc Zobel et al. một cách chính xác, đối số họ đưa ra không phải là cơ bản (ví dụ: giới hạn tiệm cận hoặc giới hạn lý thuyết thông tin). Thay vào đó, đối số dường như là, đưa ra các tệp chữ ký được triển khai với các kỹ thuật X, Y và Z so với các chỉ số đảo ngược được thực hiện với các kỹ thuật A, B và C và công nghệ hiện tại trong ngày (các đĩa có chi phí tìm kiếm / truy cập rất cao ), các chỉ số đảo ngược là vượt trội vì chúng yêu cầu ít tìm kiếm hơn và có nhanh hơn.

Có một so sánh gần đây so sánh các kỹ thuật này trên SSD, NVMe hoặc RAM, hoặc có một so sánh gần đây hơn về các kỹ thuật "mới" đã được phát minh từ năm 1998?

Câu trả lời:


1

Không biết bất kỳ tài liệu tham khảo mới.

Off đỉnh đầu của tôi:

Chữ ký yêu cầu xác minh ứng viên thông qua các tập tin chuyển tiếp. Điều này đòi hỏi rất nhiều truy cập ngẫu nhiên, về cơ bản là một truy cập tiềm năng. Một truy cập bộ nhớ ngẫu nhiên là hơn 100 chu kỳ CPU. Bạn có thể thực hiện rất nhiều công việc trong 100 chu kỳ CPU (ví dụ: bạn có thể giải nén hơn 100 ID lõi đơn http://boytsov.info/pub/simdcompressionarxiv.pdf ).

Tốc độ truy cập ngẫu nhiên thậm chí còn tồi tệ hơn trong trường hợp ổ cứng hoặc thậm chí SSD. Thực tế, có một khoảng cách ngày càng lớn giữa tốc độ truy cập ngẫu nhiên và tuần tự.

Trước khi thực hiện quyền truy cập ngẫu nhiên này, bạn không thể thực hiện cắt tỉa, chấm dứt sớm, v.v ... BTW, đối với cấu trúc dữ liệu gần đây nhất, có lẽ bạn nên kiểm tra các chỉ số Elias-Fano được phân vùng: http://pages.di.unipi.it/ rossano / wp-content / tải lên / trang web / 7/2015/11 / sigir14.pdf

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.