Tôi đang cố gắng đánh giá hiệu suất của thuật toán phân loại học máy có giám sát. Các quan sát rơi vào các lớp danh nghĩa (2 trong thời điểm hiện tại, tuy nhiên tôi muốn khái quát vấn đề này cho các vấn đề đa lớp), được rút ra từ dân số 99 đối tượng.
Một trong những câu hỏi tôi muốn có thể trả lời là, nếu thuật toán thể hiện sự khác biệt đáng kể về độ chính xác phân loại giữa các lớp đầu vào. Đối với trường hợp phân loại nhị phân, tôi đang so sánh độ chính xác trung bình giữa các lớp giữa các đối tượng bằng cách sử dụng thử nghiệm Wilcoxon được ghép nối (vì phân phối cơ bản là không bình thường). Để khái quát quy trình này cho các vấn đề đa lớp, tôi đã dự định sử dụng thử nghiệm Friedman .
Tuy nhiên, các giá trị p thu được từ hai quy trình đó trong trường hợp IV nhị phân khác nhau rất nhiều, với thử nghiệm Wilcoxon cho năng suất p < .001
trong khi p = .25
đối với thử nghiệm Friedman. Điều này khiến tôi tin rằng tôi có một sự hiểu lầm cơ bản về cấu trúc của bài kiểm tra Friedman.
Có phải là không thích hợp để sử dụng thử nghiệm Friedman trong trường hợp này để so sánh kết quả của các biện pháp lặp lại về độ chính xác của tất cả các đối tượng?
Mã R của tôi để có được các kết quả đó ( subject
là định danh chủ thể, acc
DV chính xác và expected
lớp quan sát IV):
> head(subject.accuracy, n=10)
subject expected acc
1 10 none 0.97826087
2 10 high 0.55319149
3 101 none 1.00000000
4 101 high 0.68085106
5 103 none 0.97826087
6 103 high 1.00000000
7 104 none 1.00000000
8 104 high 0.08510638
9 105 none 0.95121951
10 105 high 1.00000000
> ddply(subject.accuracy, .(expected), summarise, mean.acc = mean(acc), se.acc = sd(acc)/sqrt(length(acc)))
expected mean.acc se.acc
1 none 0.9750619 0.00317064
2 high 0.7571259 0.03491149
> wilcox.test(acc ~ expected, subject.accuracy, paired=T)
Wilcoxon signed rank test with continuity correction
data: acc by expected
V = 3125.5, p-value = 0.0003101
alternative hypothesis: true location shift is not equal to 0
> friedman.test(acc ~ expected | subject, subject.accuracy)
Friedman rank sum test
data: acc and expected and subject
Friedman chi-squared = 1.3011, df = 1, p-value = 0.254
wilcox.test
thực hiện kiểm tra xếp hạng có chữ ký so sánh độ chính xác theo hai điều kiện, bởi vì bạn không bao giờ nói với nó biến số ghép nối. Ít nhất đây là một cách không an toàn để chạy thử nghiệm, bởi vì nó phụ thuộc vào thứ tự của các hàng trong dữ liệu đầu vào.