Tôi đang cố gắng tìm ra cách tính Chỉ số Rand của thuật toán cụm, nhưng tôi bị mắc kẹt tại điểm làm thế nào để tính toán các phủ định đúng và sai.
Hiện tại tôi đang sử dụng ví dụ từ cuốn sách Giới thiệu về truy xuất thông tin (Manning, Raghavan & Schütze, 2009). Tại trang 359 họ nói về cách tính chỉ số Rand. Trong ví dụ này, họ sử dụng ba cụm và các cụm chứa các đối tượng sau.
- aaaaab
- abbbbc
- aaccc
Tôi thay thế đối tượng (dấu hiệu ban đầu thành chữ cái, nhưng ý tưởng và số lượng vẫn giữ nguyên). Tôi sẽ đưa ra những từ chính xác từ cuốn sách để xem những gì họ đang nói về:
Đầu tiên chúng tôi tính toán TP + FP. Ba cụm lần lượt chứa 6, 6 và 5 điểm, do đó, tổng số tích cực của các điểm tích cực hoặc các cặp tài liệu nằm trong cùng một cụm là:
TP + FP = + + = 15 + 15+ 10 = 40
Trong số này, một cặp trong cụm 1, cặp b trong cụm 2, cặp c trong cụm 3 và một cặp trong cụm 3 là tích cực thực sự:
TP = + + + = 10 + 6 + 3 + 1 = 20
Như vậy, FP = 40 - 20 = 20.
Cho đến khi tính toán ở đây rõ ràng, và nếu tôi lấy các ví dụ khác tôi sẽ nhận được kết quả tương tự, nhưng khi tôi muốn tính toán âm tính giả và âm tính thật Manning et al. tuyên bố như sau:
FN và TN được tính toán tương tự nhau, dẫn đến bảng dự phòng sau:
Bảng dự phòng trông như sau:
+--------+--------+
| TP: 20 | FN: 24 |
+--------+--------+
| FP: 20 | TN: 72 |
+--------+--------+
Câu: "FN và TN được tính tương tự nhau" không rõ ràng đối với tôi và tôi không hiểu những con số nào tôi cần để tính TN và FN. Tôi có thể tính toán phía bên phải của bảng bằng cách làm như sau:
TP + FP + FN + TN = = = 136
Nguồn: http://en.wikipedia.org/wiki/Rand_index
Do đó, FN + TN = 136 - TP + FP = 136 - 40 = 96, nhưng điều này không thực sự giúp tôi tìm ra cách tính các biến riêng biệt. Đặc biệt là khi các tác giả nói: "FN và TN được tính toán tương tự nhau". Tôi không thấy thế nào. Ngoài ra khi tôi nhìn vào các ví dụ khác, họ tính toán từng ô của bảng dự phòng bằng cách nhìn vào từng cặp.
Ví dụ: http : //www.otlet-inst acad.org/wikics/Clustering_Probols.html#toc-Subection-4.1
Câu hỏi đầu tiên của tôi, dựa trên ví dụ của Manning et al (2009), có thể tính TN và FN nếu bạn chỉ biết TP & NP? Và nếu vậy, cách tính tương tự trông như thế nào dựa trên ví dụ đã cho?