Tôi có hai phân loại
- A: mạng Bayes ngây thơ
- B: cây (kết nối đơn) mạng Bayes
Về độ chính xác và các biện pháp khác, A thực hiện tương đối kém hơn B. Tuy nhiên, khi tôi sử dụng các gói R ROCR và AUC để thực hiện phân tích ROC, hóa ra AUC cho A cao hơn AUC cho B. Tại sao điều này là xảy ra?
Giá trị dương (tp), dương dương tính (fp), âm tính giả (fn), âm tính thật (tn), độ nhạy (sen), độ đặc hiệu (spec), giá trị tiên đoán dương (ppv), giá trị tiên đoán âm (npv) và độ chính xác (acc) cho A và B như sau.
+------+---------+---------+
| | A | B |
+------+---------+---------+
| tp | 3601 | 769 |
| fp | 0 | 0 |
| fn | 6569 | 5918 |
| tn | 15655 | 19138 |
| sens | 0.35408 | 0.11500 |
| spec | 1.00000 | 1.00000 |
| ppv | 1.00000 | 1.00000 |
| npv | 0.70442 | 0.76381 |
| acc | 0.74563 | 0.77084 |
+------+---------+---------+
Ngoại trừ cảm giác và quan hệ (spec và ppv) trên lề (không bao gồm tp, fn, fn và tn), B dường như hoạt động tốt hơn A.
Khi tôi tính AUC cho cảm giác (trục y) so với 1-spec (trục x)
aucroc <- auc(roc(data$prediction,data$labels));
đây là so sánh AUC.
+----------------+---------+---------+
| | A | B |
+----------------+---------+---------+
| sens vs 1-spec | 0.77540 | 0.64590 |
| sens vs spec | 0.70770 | 0.61000 |
+----------------+---------+---------+
Vì vậy, đây là những câu hỏi của tôi:
- Tại sao AUC cho A tốt hơn B, khi B "dường như" vượt trội hơn A về độ chính xác?
- Vì vậy, làm thế nào để tôi thực sự đánh giá / so sánh các màn trình diễn phân loại của A và B? Ý tôi là, tôi có sử dụng giá trị AUC không? Tôi có sử dụng giá trị acc không, và nếu vậy tại sao?
- Hơn nữa, khi tôi áp dụng quy tắc chấm điểm thích hợp cho A và B, B vượt trội hơn A về mất log, mất phương trình bậc hai và mất hình cầu (p <0,001). Làm thế nào để những điều này cân nhắc trong việc đánh giá hiệu suất phân loại đối với AUC?
- Biểu đồ ROC cho A trông rất trơn tru (nó là một cung cong), nhưng biểu đồ ROC cho B trông giống như một tập hợp các đường được kết nối. Tại sao lại thế này?
Theo yêu cầu, đây là các lô cho mô hình A.
Dưới đây là các sơ đồ cho mô hình B.
Dưới đây là sơ đồ biểu đồ phân bố xác suất của A và B. (thời gian nghỉ được đặt thành 20).
Dưới đây là sơ đồ phân tán xác suất của B vs A.