Làm thế nào để tính toán độ tinh khiết?


15

Trong phân tích cụm làm thế nào để chúng ta tính toán độ tinh khiết? Phương trình là gì?

Tôi không tìm kiếm một mã để làm điều đó cho tôi.

nhập mô tả hình ảnh ở đây

Đặt là cụm k và c j là lớp j.ωkcj

Vì vậy, độ tinh khiết thực tế chính xác? có vẻ như là tổng số lượng lớp thực sự được phân loại trên mỗi cụm so với kích thước mẫu.

nguồn phương trình

Câu hỏi đặt ra là mối quan hệ giữa đầu ra và đầu vào là gì?

Nếu có Tích cực thực sự (TP), Tiêu cực thực sự (TN), Tích cực giả (FP), Tiêu cực giả (FN). Có phải ?Purity=TPK(TP+TN+FP+FN)


3
Nếu bạn chỉ cần một định nghĩa nhanh: Tìm kiếm hàng đầu của google về độ tinh khiết cụm ** liên kết ở đây cung cấp một định nghĩa toán học. (** đối với tôi, ít nhất - kết quả cá nhân của bạn có thể khác nhau)
Glen_b -Reinstate Monica

Tôi không biết ý của bạn về 'độ tinh khiết' là gì, nhưng David Colquhoun sử dụng "phép thử màu đen của sự thuần khiết của trái tim" như một ví dụ về lấy mẫu nhị thức trên trang 111-114 của cuốn sách giáo khoa xuất sắc của ông Bài giảng về Biostatistic (1971) có sẵn dưới dạng pdf miễn phí từ trang web của tác giả: dcscience.net Ngay cả khi nó không liên quan đến câu hỏi của bạn, đó là một câu chuyện tuyệt vời.
Michael Lew - phục hồi Monica

Trong cây phân loại, một số chức năng để đo tạp chất là: lỗi tái lập, chỉ số gini và entropy. (Cây phân loại thực hiện một hình thức phân cụm cụ thể, vì vậy tôi nghĩ rằng điều này nên có liên quan.) Hy vọng điều này sẽ giúp!
Angelorf

Câu trả lời:


25

Trong bối cảnh phân tích cụm, Độ tinh khiết là một tiêu chí đánh giá bên ngoài về chất lượng cụm. Nó là phần trăm của tổng số đối tượng (điểm dữ liệu) được phân loại chính xác, trong phạm vi đơn vị [0..1].

Purity=1Ni=1kmaxj|citj|

Trong đó N = số đối tượng (điểm dữ liệu), k = số cụm, ci là cụm trong Ctj là phân loại có số lượng tối đa cho cụmci

citiciticiticiciticitimax

citi

   |  T1 |  T2  |  T3
---------------------
C1 |  0  |  53  |  10
C2 |  0  |  1   |  60
C3 |  0  |  16  |  0

ci

Purity = (53 + 60 + 16) / 140 = 0.92142

bạn cũng có thể vui lòng trả lời cho entropy?
MonsterMMORPG


Tôi nghĩ bạn "tràn ngập logic" khi nói "tj là phân loại ... số lượng tối đa ". Không cần mmộtxjsau đó. Nhân tiện, độ tinh khiết cao không cho thấy tính chính xác của phân loại, phải không?
LRDPRDX
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.