Chỉ số Rand đã điều chỉnh so với thông tin lẫn nhau đã điều chỉnh


9

Tôi đang cố gắng để đánh giá hiệu suất phân cụm. Tôi đã đọc tài liệu skiscit-learn về số liệu . Tôi không hiểu sự khác biệt giữa ARI và AMI. Dường như với tôi rằng họ làm điều tương tự theo hai cách khác nhau.

Trích dẫn từ tài liệu:

Dựa vào kiến ​​thức về các bài tập lớp thực tế nhãn_true và các bài tập thuật toán phân cụm của chúng tôi cho cùng một mẫu nhãn_pred, chỉ số Rand được điều chỉnh là một hàm đo lường sự giống nhau của hai bài tập, bỏ qua hoán vị và bình thường hóa cơ hội.

đấu với

Dựa vào kiến ​​thức về các bài tập lớp thực tế nhãn_true và các bài tập thuật toán phân cụm của chúng tôi cho cùng một mẫu nhãn_pred, Thông tin lẫn nhau là một hàm đo lường sự thỏa thuận của hai bài tập, bỏ qua hoán vị ... AMI đã được đề xuất gần đây và được chuẩn hóa gần đây cơ hội.

Tôi có nên sử dụng cả hai trong số chúng trong đánh giá phân cụm của mình hay điều này sẽ là dư thừa?


Ông Rand không phải là ngẫu nhiên.
Có QUIT - Anony-Mousse

Câu trả lời:


2

Họ là hai trong số hàng tá tất cả cố gắng so sánh các cụm.

Nhưng chúng không tương đương. Họ sử dụng lý thuyết khác nhau.

Đôi khi, ARI có thể thích một kết quả và AMI khác. Nhưng thường thì họ đồng ý về sở thích (không phải trong các con số).


Ý bạn là gì với: "họ đồng ý về sở thích (không phải trong các số)?"
al27091

Khi bạn so sánh nhiều kết quả.
Có QUIT - Anony-Mousse

9

Nguyên tắc chung là:

  • Sử dụng ARI khi cụm sự thật mặt đất có các cụm lớn có kích thước bằng nhau
  • Hoa Kỳ AMI khi cụm sự thật mặt đất không cân bằng và tồn tại các cụm nhỏ

Tôi đã làm việc về chủ đề này. Tham khảo: Điều chỉnh các biện pháp so sánh phân cụm cơ hội


Tôi đã áp dụng HDBSCAN và KMeans trên một số bộ dữ liệu của mình với số cụm phù hợp cho KMeans và kích thước cụm min chính xác cho HDBSCAN. Vấn đề của tôi là sự tiến triển trong AMI không tương quan với sự tiến triển trong ARI. Tôi nhận được trung bình 0,3 và 0,35 trong AMI là thấp. Tôi nhận được kết quả ARI gần bằng 0: 0,07 và 0,01 trung bình. Ngay cả trong trường hợp tôi đạt được AMI tốt hơn với HDBSCAN, điểm ARI của tôi rất gần với 0, tức là HDBSCAN tạo ra ARI thấp hơn so với KMeans ngay cả trong trường hợp AMI cao hơn.
ryuzakinho

Loại kết quả phân cụm nào có nghĩa là 0,3 và 0,35 cho AMI tương ứng với?
Simone

1
pastebin.com/raw/WHvTxbLm Đây là một trong những trường hợp mà tôi không hiểu: AMI tốt hơn không có nghĩa là ARI tốt hơn và ngược lại. Có bất kỳ lý do tại sao tôi sẽ tin tưởng sự cải thiện tương đối của cái này hay cái khác. Tôi không chắc chắn nên xem số liệu nào để cải thiện kết quả của mình (từ bài báo bạn liên kết, tôi cảm thấy đó là AMI do phân phối lớp của tôi nhưng tôi vẫn bối rối).
ryuzakinho

1
Trong trường hợp của bạn, kết quả HDBSCAN cho thấy một cụm rất lớn và nhiều cụm nhỏ theo định nghĩa là một giải pháp không cân bằng. Do đó AMI lớn hơn với DBSCAN. Sự thật mặt đất của bạn cân bằng hơn giải pháp đó. Do đó, tôi sẽ sử dụng ARI để chọn giải pháp ở đây. Điều này nói rằng, có vẻ như các giải pháp phân cụm bạn thu được là không tốt. Có thể đó là vì bạn có nhiều cụm. Bạn có thể giảm số lượng cụm mà bạn muốn? Hoặc bạn có các tính năng để xem xét thay vì sử dụng phân cụm dựa trên khoảng cách hoàn toàn không?
Simone

1
Sau khi kiểm tra định tính nhiều hơn, hóa ra AMI đáng tin cậy hơn cho trường hợp sử dụng của tôi. Thật vậy, AMI nói rằng HDBSCAN tốt hơn và tôi thực sự thấy nó tốt hơn. Mặc dù tôi có một cụm tiếng ồn lớn, các cụm khác tinh khiết hơn cụm KMEANS.
ryuzakinho
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.