Đối với những người không thống kê như tôi, rất khó nắm bắt ý tưởng về VI
số liệu (biến thể thông tin) ngay cả sau khi đọc bài báo liên quan của Marina Melia " So sánh cụm - Khoảng cách dựa trên thông tin " (Tạp chí Phân tích Đa biến, 2007). Trên thực tế, tôi không quen thuộc với nhiều điều khoản của cụm.
Dưới đây là một MWE và tôi muốn biết đầu ra có ý nghĩa gì trong các số liệu khác nhau được sử dụng. Tôi có hai cụm này trong R và theo cùng một thứ tự id:
> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
Bây giờ thực hiện so sánh dựa trên VI
cũng như các số liệu / chỉ số khác và theo thứ tự thời gian xuất hiện của chúng trong văn học.
library(igraph)
# Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi"))
[1] 0.8673525
# Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi"))
[1] 0.2451685
# Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence")
[1] 0.8800522
# van Dongen S metric 2000:
compare(a, b, method = c("split.join"))
[1] 8
# Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand"))
[1] 0.8750403
# Rand Index 1971:
compare(a, b, method = c("rand"))
[1] 0.9374788
Như bạn có thể thấy, VI
giá trị này khác với tất cả những thứ khác.
- Giá trị này nói lên điều gì (và nó liên quan đến hình dưới đây) như thế nào?
- Các hướng dẫn để xem xét giá trị này thấp hay cao là gì?
- Có bất kỳ hướng dẫn được xác định?
Có lẽ các chuyên gia trong lĩnh vực này có thể cung cấp một số mô tả hợp lý cho giáo dân như tôi khi cố gắng báo cáo kết quả như vậy. Tôi thực sự sẽ đánh giá cao nếu ai đó cũng cung cấp hướng dẫn cho các số liệu khác (khi xem xét giá trị là lớn hay nhỏ, nghĩa là liên quan đến sự tương đồng giữa hai cụm).
Tôi đã đọc các chủ đề CV liên quan ở đây và đây , nhưng vẫn không thể nắm bắt được trực giác đằng sau VI
. Ai đó có thể giải thích điều này bằng tiếng Anh đơn giản?
Hình dưới đây là hình 2 từ bài báo đã đề cập ở trên VI
.