So sánh các cụm: Rand Index và Biến thể thông tin


21

Tôi đã tự hỏi liệu có ai có bất kỳ cái nhìn sâu sắc hay trực giác nào đằng sau sự khác biệt giữa Biến thể Thông tinChỉ số Rand để so sánh các cụm.

Tôi đã đọc bài báo " So sánh các cụm - Khoảng cách dựa trên thông tin " của Marina Melia (Tạp chí Phân tích đa biến, 2007), nhưng, ngoài việc nhận thấy sự khác biệt trong các định nghĩa, tôi không hiểu sự biến đổi của thông tin là gì chụp mà chỉ số rand không nắm bắt được.

Câu trả lời:


8

Sự khác biệt giữa hai phương pháp là tinh tế. Cách tốt nhất để suy nghĩ về nó là xem xét mạng được xác định bởi hoạt động phân tách hợp nhất trên các cụm. Cả hai biện pháp này có thể được xây dựng lại bằng cách xác định hàm trên một cụm và sau đó xác định khoảng cách giữa hai cụm theo công thức:f

nơi C C ' là tham gia của hai clusterings trong lưới.

d(C,C)=f(C)+f(C)2f(CC)
CC

Bây giờ hãy để và để n i = | C i | . Thiết f ( C ) = Σ n 2 i mang lại chỉ số rand, và thiết lập f ( C ) = Σ n i log n i mang VI.C={C1,C2,,Ck}ni=|Ci|f(C)=ni2f(C)=nilogni


Cảm ơn Suresh! Bạn có biết nếu (và làm thế nào) sự khác biệt trong các công thức này giải thích tại sao chỉ số rand và sự biến đổi của tính nhất quán thông tin sẽ phạt (bao nhiêu một trong các cụm là một phân nhóm khác) giữa các cụm khác nhau không? (theo micans'answer)
Amelio Vazquez-Reina

2
Như micans chỉ ra, Rand Index có hành vi bậc hai, do đó, nó nhạy cảm hơn với những thay đổi trong ngăn chặn so với hàm entropy, gần với tuyến tính.
Suresh Venkatasubramanian

Xin lỗi, nhưng tôi vẫn không thấy cách ngăn chặn ảnh hưởng đến các điều khoản bậc hai nhiều hơn các loại khác biệt giữa các cụm. Bạn có muốn giải thích thêm về điều này một chút nữa không?
Amelio Vazquez-Reina

@ user023472 Xin chào người dùng023472. Tôi quan tâm đến những phát hiện của bạn, bạn đã hỏi câu hỏi này một thời gian trước đây. Bạn đã học được sự khác biệt giữa hai phương pháp thực sự là gì? Cảm ơn.
Creatron

14

Theo tôi, có sự khác biệt rất lớn. Chỉ số Rand bị ảnh hưởng rất nhiều bởi độ chi tiết của các cụm mà nó hoạt động. Trong phần tiếp theo tôi sẽ sử dụng khoảng cách Mirkin, đây là một dạng điều chỉnh của chỉ số Rand (dễ nhìn, nhưng xem ví dụ Meila). Tôi cũng sẽ sử dụng khoảng cách chia / tham gia, cũng được đề cập trong một số bài viết của Meila (từ chối trách nhiệm: khoảng cách chia / tham gia được đề xuất bởi tôi). Giả sử một vũ trụ gồm một trăm nguyên tố. Tôi sẽ sử dụng Top để biểu thị phân cụm với một cụm duy nhất chứa tất cả các phần tử, Dưới cùng để biểu thị phân cụm trong đó tất cả các nút nằm trong các tập đơn riêng lẻ, còn lại để biểu thị phân cụm . {{1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} và Quyền biểu thị phân cụm {{1,11, .. 91}, {2, 12, .. 92}, {3,13, .. 93}, ..., {10,20, .. 100}}

Theo tôi, Dưới cùng và Trên cùng là các cụm (lồng) nhất quán, trong khi Trái và Phải là các cụm xung đột tối đa. Khoảng cách từ các số liệu được đề cập cho hai so sánh cặp này như sau:

               Top-Bottom     Left-Right 

Mirkin            9900          1800
VI                4.605         4.605
Split/join        99            180

Theo đó, Mirkin / Rand xem xét cặp Top-bottom nhất quán cách xa nhau hơn nhiều so với cặp Left-Right xung đột tối đa. Đây là một ví dụ cực đoan để minh họa điểm này, nhưng nói chung Mirkin / Rand bị ảnh hưởng rất nhiều bởi độ chi tiết của các cụm mà nó hoạt động. Lý do cơ bản này là mối quan hệ bậc hai giữa số liệu này và kích thước cụm, được giải thích bởi thực tế là việc đếm các cặp nút có liên quan. Trên thực tế, khoảng cách Mirkin là khoảng cách Hamming giữa các tập hợp cạnh của các biểu đồ hoàn chỉnh được tạo bởi các cụm (đây là câu trả lời cho câu hỏi của bạn tôi nghĩ).

Liên quan đến sự khác biệt giữa Biến thể thông tin và Chia / Tham gia, lần đầu tiên nhạy cảm hơn với các tình huống xung đột nhất định như Meila thể hiện. Nghĩa là, Chia / Tham gia chỉ xem xét kết quả phù hợp nhất cho từng cụm và bỏ qua sự phân mảnh có thể xảy ra ở phần còn lại của cụm đó, trong khi Biến thể thông tin sẽ chọn điều này. Điều đó nói rằng, Split / Tham gia có thể dễ dàng hiểu là số lượng các nút cần phải được di chuyển để có được một cụm từ cụm khác , và theo nghĩa đó, phạm vi của nó dễ hiểu hơn; trong thực tế vấn đề phân mảnh cũng có thể không phổ biến.

Mỗi số liệu này có thể được hình thành dưới dạng tổng của hai khoảng cách, cụ thể là khoảng cách từ mỗi cụm đến hai phân loại chung lớn nhất của chúng. Tôi cảm thấy thường có ích khi làm việc với những phần riêng biệt đó thay vì chỉ là tổng của họ. Bảng trên trở thành:

               Top-Bottom     Left-Right 

Mirkin          0,9900          900,900
VI              0,4.605       2.303,2.303
Split/join      0,99             90,90

Mối quan hệ lún giữa Top và bottom trở nên rõ ràng ngay lập tức. Nó thường khá hữu ích để biết liệu hai cụm có nhất quán hay không (nghĩa là một cụm (gần) là một nhánh con của cái kia) như một sự thư giãn của câu hỏi liệu chúng có gần nhau không . Một cụm có thể khá xa so với tiêu chuẩn vàng, nhưng vẫn nhất quán hoặc gần như nhất quán. Trong trường hợp như vậy, có thể không có lý do để xem xét việc phân cụm xấu đối với tiêu chuẩn vàng đó. Tất nhiên, các cụm tầm thường Trên và Dưới sẽ phù hợp với bất kỳ phân cụm nào , vì vậy điều này phải được tính đến.

Cuối cùng, tôi tin rằng các số liệu như Mirkin, Biến thể thông tin và Chia / Tham gia là những công cụ tự nhiên để so sánh các cụm. Đối với hầu hết các ứng dụng, các phương pháp cố gắng kết hợp độc lập thống kê và chính xác để có cơ hội bị chiếm đoạt quá mức và làm khó hiểu hơn là làm rõ.

Ví dụ thứ hai Hãy xem xét các cặp cụm sau: C1 = {{1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} với C2 = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}}

C3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} với {{1, 2, 3 , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}

Ở đây, C2 có thể được hình thành từ C1 bằng cách di chuyển các nút 9 và 10 và C3 có thể được hình thành từ C3 bằng cách di chuyển các nút 11 và 12. Cả hai thay đổi này giống hệt nhau ("di chuyển hai nút") ngoại trừ thực tế là kích thước của các cụm liên quan khác nhau . Bảng số liệu phân cụm cho hai ví dụ này là:

            C1-C2         C3-C4

Mirkin       56            40 
VI            0.594         0.520
Split/Join    4             4

Có thể thấy rằng Mirkin / Rand và Biến đổi thông tin bị ảnh hưởng bởi kích thước cụm (và Mirkin ở mức độ lớn hơn; điều này sẽ rõ rệt hơn khi phân chia kích thước cụm), trong khi khoảng cách Chia / Tham gia thì không (giá trị của nó là 4 vì nó "di chuyển" các nút từ cụm này sang cụm khác luôn thông qua phân nhóm chung lớn nhất). Đây có thể là một đặc điểm mong muốn tùy thuộc vào hoàn cảnh. Việc giải thích đơn giản về Chia / Tham gia (số lượng nút để di chuyển) và tính độc lập của kích thước cụm là đáng để nhận biết. Giữa Mirkin và Biến thể thông tin tôi nghĩ rằng cái sau rất thích hợp hơn.


Cảm ơn micans, điều này là rất sâu sắc. Tôi không chắc chắn tôi đã hiểu bảng thứ hai. Tại sao có hai số được phân tách bằng dấu phẩy cho mỗi mục trong bảng? Ngoài ra, bạn có biết lập luận này liên quan đến @ Suresh's như thế nào không?
Amelio Vazquez-Reina

1
Nếu A và B là các cụm, thì d (A, B) có thể được chia thành d (A, B) = d (A, X) + d (B, X) trong đó X là cụm lớn nhất là phân nhóm của cả hai. Trong ký hiệu của Suresh, chúng ta có d (A, B) = f (A) + f (B) -2f (X). Điều này có thể được viết lại dưới dạng f (A) + f (X) -2f (X) + f (B) + f (X) -2f (X) = d (A, X) + d (B, X). Ở trên tôi đã viết hai thành phần d (A, X) và d (B, X) cách nhau bằng dấu phẩy. Sự khác biệt lớn nhất giữa hai loại cho đến nay là các đặc điểm bậc hai của Mirkin / Rand. Nếu bạn nhìn vào các ví dụ Top / bottom và Left / Right, khoảng cách Top-bottom là rất lớn; điều này hoàn toàn do kích thước của Top.
micans
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.