Trực giác đằng sau sự thay đổi của chỉ số thông tin (VI) để xác nhận cụm là gì?

Đối với những người không thống kê như tôi, rất khó nắm bắt ý tưởng về VIsố liệu (biến thể thông tin) ngay cả sau khi đọc bài báo liên quan của Marina Melia " So sánh cụm - Khoảng cách dựa trên thông tin " (Tạp chí Phân tích Đa biến, 2007). Trên thực tế, tôi không quen thuộc với nhiều điều khoản của cụm.

Dưới đây là một MWE và tôi muốn biết đầu ra có ý nghĩa gì trong các số liệu khác nhau được sử dụng. Tôi có hai cụm này trong R và theo cùng một thứ tự id:

> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")

Bây giờ thực hiện so sánh dựa trên VIcũng như các số liệu / chỉ số khác và theo thứ tự thời gian xuất hiện của chúng trong văn học.

library(igraph)
  # Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi")) 
[1] 0.8673525
  # Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi")) 
[1] 0.2451685
  # Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence") 
[1] 0.8800522
  # van Dongen S metric 2000:
compare(a, b, method = c("split.join")) 
[1] 8
  # Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand")) 
[1] 0.8750403
  # Rand Index 1971:
compare(a, b, method = c("rand")) 
[1] 0.9374788

Như bạn có thể thấy, VIgiá trị này khác với tất cả những thứ khác.

Giá trị này nói lên điều gì (và nó liên quan đến hình dưới đây) như thế nào?
Các hướng dẫn để xem xét giá trị này thấp hay cao là gì?
Có bất kỳ hướng dẫn được xác định?

Có lẽ các chuyên gia trong lĩnh vực này có thể cung cấp một số mô tả hợp lý cho giáo dân như tôi khi cố gắng báo cáo kết quả như vậy. Tôi thực sự sẽ đánh giá cao nếu ai đó cũng cung cấp hướng dẫn cho các số liệu khác (khi xem xét giá trị là lớn hay nhỏ, nghĩa là liên quan đến sự tương đồng giữa hai cụm).

Tôi đã đọc các chủ đề CV liên quan ở đây và đây , nhưng vẫn không thể nắm bắt được trực giác đằng sau VI. Ai đó có thể giải thích điều này bằng tiếng Anh đơn giản?

Hình dưới đây là hình 2 từ bài báo đã đề cập ở trên VI.

nhập mô tả hình ảnh ở đây

r clustering validation intuition

— tiến sĩ
nguồn

Tất cả những điểm tương đồng và số liệu này (lưu ý sự khác biệt giữa hai loại) đo lường theo cách này hay cách khác về số lượng phân mảnh liên quan đến phân loại chung lớn nhất giữa hai phân vùng. Tất cả đều sử dụng cái được gọi là ma trận nhầm lẫn. Bằng cách xem xét công thức chính xác cho VI, có thể hiểu là đo sự phân mảnh đó. Tôi sẽ đề nghị xem xét công thức trong một trong các ấn phẩm Meila, và cũng để đọc về các phiên bản chuẩn hóa của tất cả các khoảng cách này, vì tất cả chúng đều có quy mô khác nhau. Đây có thể là điểm quan trọng nhất.

— micans

Tôi cũng đang vật lộn với việc giải thích VI và thấy bài viết này rất hữu ích!

— Pizza

Bạn cần nhận ra rằng các biện pháp có thể có cách giải thích khác nhau.

Đánh giá từ cốt truyện của bạn, VI thấp là tốt.

1 - 0.2451685 = 0.7548315

đó là nhiều hơn phù hợp với các biện pháp khác.

Tuy nhiên, lưu ý rằng hầu hết các biện pháp này đo lường một cái gì đó khác nhau .

Không có lý do nào để cho rằng chỉ vì một biện pháp là 0,8, một biện pháp khác cũng phải là 0,8

— Có QUIT - Anony-Mousse
nguồn

Tôi nghĩ rằng OP sẽ đánh giá cao nó nếu bạn có thể giải thích những gì khác nhau mà mỗi người trong số họ đo lường.

— gung - Phục hồi Monica

Tôi không biết họ đủ rõ để giải thích từng người trong số họ. Rõ ràng là không có quy mô / đơn vị tương đương. Cũng giống như Volts và feet không thể so sánh được.

— Có QUIT - Anony-Mousse