Theo tôi, có sự khác biệt rất lớn. Chỉ số Rand bị ảnh hưởng rất nhiều bởi độ chi tiết của các cụm mà nó hoạt động. Trong phần tiếp theo tôi sẽ sử dụng khoảng cách Mirkin, đây là một dạng điều chỉnh của chỉ số Rand (dễ nhìn, nhưng xem ví dụ Meila). Tôi cũng sẽ sử dụng khoảng cách chia / tham gia, cũng được đề cập trong một số bài viết của Meila (từ chối trách nhiệm: khoảng cách chia / tham gia được đề xuất bởi tôi). Giả sử một vũ trụ gồm một trăm nguyên tố. Tôi sẽ sử dụng Top để biểu thị phân cụm với một cụm duy nhất chứa tất cả các phần tử, Dưới cùng để biểu thị phân cụm trong đó tất cả các nút nằm trong các tập đơn riêng lẻ, còn lại để biểu thị phân cụm . {{1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} và Quyền biểu thị phân cụm {{1,11, .. 91}, {2, 12, .. 92}, {3,13, .. 93}, ..., {10,20, .. 100}}
Theo tôi, Dưới cùng và Trên cùng là các cụm (lồng) nhất quán, trong khi Trái và Phải là các cụm xung đột tối đa. Khoảng cách từ các số liệu được đề cập cho hai so sánh cặp này như sau:
Top-Bottom Left-Right
Mirkin 9900 1800
VI 4.605 4.605
Split/join 99 180
Theo đó, Mirkin / Rand xem xét cặp Top-bottom nhất quán cách xa nhau hơn nhiều so với cặp Left-Right xung đột tối đa. Đây là một ví dụ cực đoan để minh họa điểm này, nhưng nói chung Mirkin / Rand bị ảnh hưởng rất nhiều bởi độ chi tiết của các cụm mà nó hoạt động. Lý do cơ bản này là mối quan hệ bậc hai giữa số liệu này và kích thước cụm, được giải thích bởi thực tế là việc đếm các cặp nút có liên quan. Trên thực tế, khoảng cách Mirkin là khoảng cách Hamming giữa các tập hợp cạnh của các biểu đồ hoàn chỉnh được tạo bởi các cụm (đây là câu trả lời cho câu hỏi của bạn tôi nghĩ).
Liên quan đến sự khác biệt giữa Biến thể thông tin và Chia / Tham gia, lần đầu tiên nhạy cảm hơn với các tình huống xung đột nhất định như Meila thể hiện. Nghĩa là, Chia / Tham gia chỉ xem xét kết quả phù hợp nhất cho từng cụm và bỏ qua sự phân mảnh có thể xảy ra ở phần còn lại của cụm đó, trong khi Biến thể thông tin sẽ chọn điều này. Điều đó nói rằng, Split / Tham gia có thể dễ dàng hiểu là số lượng các nút cần phải được di chuyển để có được một cụm từ cụm khác , và theo nghĩa đó, phạm vi của nó dễ hiểu hơn; trong thực tế vấn đề phân mảnh cũng có thể không phổ biến.
Mỗi số liệu này có thể được hình thành dưới dạng tổng của hai khoảng cách, cụ thể là khoảng cách từ mỗi cụm đến hai phân loại chung lớn nhất của chúng. Tôi cảm thấy thường có ích khi làm việc với những phần riêng biệt đó thay vì chỉ là tổng của họ. Bảng trên trở thành:
Top-Bottom Left-Right
Mirkin 0,9900 900,900
VI 0,4.605 2.303,2.303
Split/join 0,99 90,90
Mối quan hệ lún giữa Top và bottom trở nên rõ ràng ngay lập tức. Nó thường khá hữu ích để biết liệu hai cụm có nhất quán hay không (nghĩa là một cụm (gần) là một nhánh con của cái kia) như một sự thư giãn của câu hỏi liệu chúng có gần nhau không . Một cụm có thể khá xa so với tiêu chuẩn vàng, nhưng vẫn nhất quán hoặc gần như nhất quán. Trong trường hợp như vậy, có thể không có lý do để xem xét việc phân cụm xấu đối với tiêu chuẩn vàng đó. Tất nhiên, các cụm tầm thường Trên và Dưới sẽ phù hợp với bất kỳ phân cụm nào , vì vậy điều này phải được tính đến.
Cuối cùng, tôi tin rằng các số liệu như Mirkin, Biến thể thông tin và Chia / Tham gia là những công cụ tự nhiên để so sánh các cụm. Đối với hầu hết các ứng dụng, các phương pháp cố gắng kết hợp độc lập thống kê và chính xác để có cơ hội bị chiếm đoạt quá mức và làm khó hiểu hơn là làm rõ.
Ví dụ thứ hai
Hãy xem xét các cặp cụm sau:
C1 = {{1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} với C2 = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}}
và
C3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} với {{1, 2, 3 , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}
Ở đây, C2 có thể được hình thành từ C1 bằng cách di chuyển các nút 9 và 10 và C3 có thể được hình thành từ C3 bằng cách di chuyển các nút 11 và 12. Cả hai thay đổi này giống hệt nhau ("di chuyển hai nút") ngoại trừ thực tế là kích thước của các cụm liên quan khác nhau . Bảng số liệu phân cụm cho hai ví dụ này là:
C1-C2 C3-C4
Mirkin 56 40
VI 0.594 0.520
Split/Join 4 4
Có thể thấy rằng Mirkin / Rand và Biến đổi thông tin bị ảnh hưởng bởi kích thước cụm (và Mirkin ở mức độ lớn hơn; điều này sẽ rõ rệt hơn khi phân chia kích thước cụm), trong khi khoảng cách Chia / Tham gia thì không (giá trị của nó là 4 vì nó "di chuyển" các nút từ cụm này sang cụm khác luôn thông qua phân nhóm chung lớn nhất). Đây có thể là một đặc điểm mong muốn tùy thuộc vào hoàn cảnh. Việc giải thích đơn giản về Chia / Tham gia (số lượng nút để di chuyển) và tính độc lập của kích thước cụm là đáng để nhận biết. Giữa Mirkin và Biến thể thông tin tôi nghĩ rằng cái sau rất thích hợp hơn.