Giả sử tôi có năm bộ tôi muốn phân cụm. Tôi hiểu rằng kỹ thuật SimHashing được mô tả ở đây:
https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/
có thể mang lại ba cụm ( {A}
, {B,C,D}
và {E}
), ví dụ, nếu kết quả của nó là:
A -> h01
B -> h02
C -> h02
D -> h02
E -> h03
Tương tự, kỹ thuật MinHashing được mô tả trong Chương 3 của sách MMDS:
http://infolab.stanford.edu/~ullman/mmds/ch3.pdf
cũng có thể mang lại ba cụm giống nhau nếu kết quả của nó là:
A -> h01 - h02 - h03
B -> h04 - h05 - h06
|
C -> h04 - h07 - h08
|
D -> h09 - h10 - h08
E -> h11 - h12 - h13
(Mỗi bộ tương ứng với chữ ký MH gồm ba "dải" và hai bộ được nhóm nếu ít nhất một trong các dải chữ ký của chúng khớp với nhau. Nhiều băng tần hơn có nghĩa là có nhiều cơ hội khớp hơn.)
Tuy nhiên tôi có một số câu hỏi liên quan đến những điều này:
(1) SH có thể được hiểu là một phiên bản ban nhạc duy nhất của MH không?
(2) MH có nhất thiết ngụ ý việc sử dụng cấu trúc dữ liệu như Union-Find để xây dựng các cụm không?
(3) Tôi có đúng không khi nghĩ rằng các cụm, trong cả hai kỹ thuật, thực sự là "cụm trước", theo nghĩa là chúng chỉ là tập hợp của "cặp ứng cử viên"?