Thử nghiệm Friedman vs Wilcoxon


11

Tôi đang cố gắng đánh giá hiệu suất của thuật toán phân loại học máy có giám sát. Các quan sát rơi vào các lớp danh nghĩa (2 trong thời điểm hiện tại, tuy nhiên tôi muốn khái quát vấn đề này cho các vấn đề đa lớp), được rút ra từ dân số 99 đối tượng.

Một trong những câu hỏi tôi muốn có thể trả lời là, nếu thuật toán thể hiện sự khác biệt đáng kể về độ chính xác phân loại giữa các lớp đầu vào. Đối với trường hợp phân loại nhị phân, tôi đang so sánh độ chính xác trung bình giữa các lớp giữa các đối tượng bằng cách sử dụng thử nghiệm Wilcoxon được ghép nối (vì phân phối cơ bản là không bình thường). Để khái quát quy trình này cho các vấn đề đa lớp, tôi đã dự định sử dụng thử nghiệm Friedman .

Tuy nhiên, các giá trị p thu được từ hai quy trình đó trong trường hợp IV nhị phân khác nhau rất nhiều, với thử nghiệm Wilcoxon cho năng suất p < .001trong khi p = .25đối với thử nghiệm Friedman. Điều này khiến tôi tin rằng tôi có một sự hiểu lầm cơ bản về cấu trúc của bài kiểm tra Friedman.

Có phải là không thích hợp để sử dụng thử nghiệm Friedman trong trường hợp này để so sánh kết quả của các biện pháp lặp lại về độ chính xác của tất cả các đối tượng?

Mã R của tôi để có được các kết quả đó ( subjectlà định danh chủ thể, accDV chính xác và expectedlớp quan sát IV):

> head(subject.accuracy, n=10)
   subject expected        acc
1       10     none 0.97826087
2       10     high 0.55319149
3      101     none 1.00000000
4      101     high 0.68085106
5      103     none 0.97826087
6      103     high 1.00000000
7      104     none 1.00000000
8      104     high 0.08510638
9      105     none 0.95121951
10     105     high 1.00000000
> ddply(subject.accuracy, .(expected), summarise, mean.acc = mean(acc), se.acc = sd(acc)/sqrt(length(acc)))
  expected  mean.acc     se.acc
1     none 0.9750619 0.00317064
2     high 0.7571259 0.03491149
> wilcox.test(acc ~ expected, subject.accuracy, paired=T)

    Wilcoxon signed rank test with continuity correction

data:  acc by expected
V = 3125.5, p-value = 0.0003101
alternative hypothesis: true location shift is not equal to 0

> friedman.test(acc ~ expected | subject, subject.accuracy)

    Friedman rank sum test

data:  acc and expected and subject
Friedman chi-squared = 1.3011, df = 1, p-value = 0.254

Tôi không chắc chắn rằng cuộc gọi của bạn để wilcox.testthực hiện kiểm tra xếp hạng có chữ ký so sánh độ chính xác theo hai điều kiện, bởi vì bạn không bao giờ nói với nó biến số ghép nối. Ít nhất đây là một cách không an toàn để chạy thử nghiệm, bởi vì nó phụ thuộc vào thứ tự của các hàng trong dữ liệu đầu vào.
Aniko

Câu trả lời:


11

Thử nghiệm Friedman không phải là sự mở rộng của thử nghiệm Wilcoxon, vì vậy khi bạn chỉ có 2 mẫu liên quan thì nó không giống với thử nghiệm xếp hạng có chữ ký của Wilcoxon . Cái sau chiếm mức độ khác biệt trong một trường hợp (và sau đó xếp nó qua các trường hợp), trong khi Friedman chỉ xếp hạng trong một trường hợp (và không bao giờ qua các trường hợp): nó ít nhạy cảm hơn.

Friedman thực sự gần như là phần mở rộng của kiểm tra dấu hiệu . Với 2 mẫu, giá trị p của chúng rất gần nhau, với Friedman chỉ bảo thủ hơn một chút (hai thử nghiệm này xử lý mối quan hệ theo những cách hơi khác nhau). Sự khác biệt nhỏ này nhanh chóng tan biến khi kích thước mẫu tăng lên. Vì vậy, đối với hai mẫu liên quan, hai thử nghiệm này thực sự là lựa chọn thay thế.

Bài kiểm tra tương đương với Wilcoxon - có cùng ý nghĩa với Friedman để ký - không phải là bài kiểm tra Quade được biết đến nhiều , ví dụ ở đây: http://www.itl.nist.gov/div898/software/dataplot/refman1/ Ailen / Friedman.htm .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.