Làm thế nào để áp dụng chính xác bài kiểm tra hậu hoc Nemenyi sau bài kiểm tra Friedman


11

Tôi đang so sánh hiệu suất của nhiều thuật toán trên nhiều bộ dữ liệu. Vì các phép đo hiệu suất này không được đảm bảo phân phối bình thường, tôi đã chọn Thử nghiệm Friedman với thử nghiệm sau đại học Nemenyi dựa trên Demšar (2006) .

Sau đó tôi đã tìm thấy một bài báo khác, ngoài việc đề xuất các phương pháp khác như thử nghiệm Quade với thử nghiệm sau đại học Shaffer tiếp theo, họ áp dụng thử nghiệm Nemenyi khác nhau.

Làm thế nào để tôi áp dụng bài kiểm tra hậu hoc Nemenyi một cách chính xác?

1. Sử dụng thống kê phạm vi Studentized?

Trong bài viết của Demšar, nó nói sẽ bác bỏ giả thuyết null (không có sự khác biệt về hiệu suất của hai thuật toán) nếu chênh lệch thứ hạng trung bình lớn hơn CD khoảng cách tới hạn với

CD= =qαk(k+1)6N

"trong đó các giá trị quan trọng qα dựa trên thống kê phạm vi Sinh viên chia cho "2.

Sau khi đào bới, tôi thấy rằng các "giá trị quan trọng" đó có thể được tìm kiếm trong một số bảng chữ cái nhất định, ví dụ như trong một bảng choα= =0,05 , cho mức độ tự do vô hạn (ở cuối mỗi bảng).

2. hoặc sử dụng phân phối bình thường?

Ngay khi tôi nghĩ mình biết phải làm gì, tôi lại tìm thấy một tờ giấy khác làm tôi bối rối, vì họ chỉ sử dụng bản phân phối bình thường. Demšar đang nêu một điều tương tự ở trang 12:

Số liệu thống kê kiểm tra để so sánh phân loại thứ i và thứ j sử dụng các phương thức này là Giá trị z được sử dụng để tìm ra xác suất tương ứng từ bảng phân phối chuẩn, sau đó được so sánh với một thích hợp . Các thử nghiệm khác nhau về cách chúng điều chỉnh giá trị của để bù cho nhiều so sánh.

z= =(RTôi-Rj)k(k+1)6N
αα

Ở đoạn này, ông đã nói về việc so sánh tất cả các thuật toán với thuật toán điều khiển, nhưng nhận xét "khác nhau về cách chúng điều chỉnh ... để bù cho nhiều so sánh" cho thấy rằng điều này cũng nên giữ cho thử nghiệm Nemenyi.

Vì vậy, điều có vẻ hợp lý với tôi là tính giá trị p dựa trên thống kê kiểm tra , thường được phân phối và sửa lỗi đó bằng cách chia cho .zk(k-1)/2

Tuy nhiên, điều đó mang lại sự khác biệt thứ hạng hoàn toàn khác nhau để từ chối giả thuyết khống. Và bây giờ tôi bị mắc kẹt và không biết nên áp dụng phương pháp nào. Tôi mạnh mẽ nghiêng về phía sử dụng phân phối bình thường , bởi vì nó đơn giản và hợp lý hơn đối với tôi. Tôi cũng không cần tìm kiếm các giá trị trong bảng và tôi không bị ràng buộc với các giá trị quan trọng nhất định.

Sau đó, một lần nữa, tôi chưa bao giờ làm việc với thống kê phạm vi học sinh và tôi không hiểu điều đó.

Câu trả lời:


5

Tôi cũng chỉ bắt đầu xem xét câu hỏi này.

Như đã đề cập trước đây, khi chúng tôi sử dụng phân phối bình thường để tính giá trị p cho mỗi thử nghiệm, thì các giá trị p này không tính đến nhiều thử nghiệm. Để sửa lỗi cho nó và kiểm soát tỷ lệ lỗi thông minh của gia đình, chúng tôi cần một số điều chỉnh. Bonferonni, tức là chia mức ý nghĩa hoặc nhân giá trị p thô với số lượng thử nghiệm, chỉ có thể điều chỉnh một lần. Có một số lượng lớn các hiệu chỉnh p-value thử nghiệm khác trong nhiều trường hợp ít bảo thủ hơn.

Những hiệu chỉnh giá trị p này không tính đến cấu trúc cụ thể của các thử nghiệm giả thuyết.

Tôi quen thuộc hơn với việc so sánh từng cặp dữ liệu gốc thay vì dữ liệu được chuyển đổi thứ hạng như trong các bài kiểm tra Kruskal-Wallis hoặc Friedman. Trong trường hợp đó, là bài kiểm tra Tukey HSD, thống kê kiểm tra cho phép so sánh nhiều được phân phối theo phân phối phạm vi học sinh, là phân phối cho tất cả các so sánh theo cặp với giả định của các mẫu độc lập. Nó dựa trên xác suất của phân phối chuẩn nhiều biến số có thể được tính bằng tích phân số nhưng thường được sử dụng từ các bảng.

Tôi đoán, vì tôi không biết lý thuyết, là phân phối phạm vi học sinh có thể được áp dụng cho trường hợp kiểm tra thứ hạng theo cách tương tự như trong so sánh cặp Tukey HSD.

Vì vậy, sử dụng (2) phân phối bình thường cộng với nhiều hiệu chỉnh giá trị p thử nghiệm và sử dụng (1) phân phối phạm vi được sinh viên hóa là hai cách khác nhau để có được phân phối gần đúng của thống kê kiểm tra. Tuy nhiên, nếu các giả định cho việc sử dụng phân phối phạm vi học sinh được thỏa mãn, thì nó sẽ cung cấp một xấp xỉ tốt hơn vì nó được thiết kế cho vấn đề cụ thể của tất cả các so sánh cặp.


1

Theo như tôi biết, khi chỉ so sánh 2 thuật toán, Demšar gợi ý Wilcoxon đã ký kiểm tra xếp hạng chứ không phải Friedman + posthoc. Đáng buồn thay, tôi cũng buồn như bạn khi nói đến việc giải mã những gì phân chia của demšar cho k-1 có nghĩa là gì.


1
Chia cho (k-1) là khi bạn so sánh nhiều thuật toán với phương pháp điều khiển. Nhưng đây là một so với mỗi, vì vậy NxN. Phần phân chia tôi có thể hiểu, nhưng mối quan hệ với phân phối phạm vi Sinh viên nằm ngoài tầm hiểu biết của tôi.
Sentry

@Sentry: Bạn phải nhân với hệ số điều chỉnh ở đây, không được nhân lên. Xin vui lòng xem câu trả lời của tôi ở trên.
Chris

0

Tôi cũng tình cờ tìm ra liệu tính toán giá trị p từ phân phối t bình thường hay học sinh. Thật không may, tôi vẫn không thể trả lời nó, bởi vì các bài viết khác nhau giao tiếp các phương pháp khác nhau.

Tuy nhiên, để tính giá trị p đã điều chỉnh, bạn phải nhân giá trị p chưa được xử lý với hệ số điều chỉnh, ví dụ p * (k-1) trong trường hợp so sánh với một phương pháp điều khiển hoặc p * ((k * (k-1) )) / 2) để so sánh nxn.

Giá trị bạn nên chia cho hệ số điều chỉnh là giá trị alpha, nếu được so sánh với p không được điều chỉnh.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.