Tôi đang so sánh hiệu suất của nhiều thuật toán trên nhiều bộ dữ liệu. Vì các phép đo hiệu suất này không được đảm bảo phân phối bình thường, tôi đã chọn Thử nghiệm Friedman với thử nghiệm sau đại học Nemenyi dựa trên Demšar (2006) .
Sau đó tôi đã tìm thấy một bài báo khác, ngoài việc đề xuất các phương pháp khác như thử nghiệm Quade với thử nghiệm sau đại học Shaffer tiếp theo, họ áp dụng thử nghiệm Nemenyi khác nhau.
Làm thế nào để tôi áp dụng bài kiểm tra hậu hoc Nemenyi một cách chính xác?
1. Sử dụng thống kê phạm vi Studentized?
Trong bài viết của Demšar, nó nói sẽ bác bỏ giả thuyết null (không có sự khác biệt về hiệu suất của hai thuật toán) nếu chênh lệch thứ hạng trung bình lớn hơn CD khoảng cách tới hạn với
"trong đó các giá trị quan trọng qα dựa trên thống kê phạm vi Sinh viên chia cho "
Sau khi đào bới, tôi thấy rằng các "giá trị quan trọng" đó có thể được tìm kiếm trong một số bảng chữ cái nhất định, ví dụ như trong một bảng cho , cho mức độ tự do vô hạn (ở cuối mỗi bảng).
2. hoặc sử dụng phân phối bình thường?
Ngay khi tôi nghĩ mình biết phải làm gì, tôi lại tìm thấy một tờ giấy khác làm tôi bối rối, vì họ chỉ sử dụng bản phân phối bình thường. Demšar đang nêu một điều tương tự ở trang 12:
Số liệu thống kê kiểm tra để so sánh phân loại thứ i và thứ j sử dụng các phương thức này là Giá trị z được sử dụng để tìm ra xác suất tương ứng từ bảng phân phối chuẩn, sau đó được so sánh với một thích hợp . Các thử nghiệm khác nhau về cách chúng điều chỉnh giá trị của để bù cho nhiều so sánh.
Ở đoạn này, ông đã nói về việc so sánh tất cả các thuật toán với thuật toán điều khiển, nhưng nhận xét "khác nhau về cách chúng điều chỉnh ... để bù cho nhiều so sánh" cho thấy rằng điều này cũng nên giữ cho thử nghiệm Nemenyi.
Vì vậy, điều có vẻ hợp lý với tôi là tính giá trị p dựa trên thống kê kiểm tra , thường được phân phối và sửa lỗi đó bằng cách chia cho .
Tuy nhiên, điều đó mang lại sự khác biệt thứ hạng hoàn toàn khác nhau để từ chối giả thuyết khống. Và bây giờ tôi bị mắc kẹt và không biết nên áp dụng phương pháp nào. Tôi mạnh mẽ nghiêng về phía sử dụng phân phối bình thường , bởi vì nó đơn giản và hợp lý hơn đối với tôi. Tôi cũng không cần tìm kiếm các giá trị trong bảng và tôi không bị ràng buộc với các giá trị quan trọng nhất định.
Sau đó, một lần nữa, tôi chưa bao giờ làm việc với thống kê phạm vi học sinh và tôi không hiểu điều đó.