Nói rộng ra (không chỉ là kiểm tra mức độ phù hợp, mà trong nhiều tình huống khác), bạn chỉ đơn giản là không thể kết luận rằng null là đúng, bởi vì có những lựa chọn thay thế không thể phân biệt được với null ở bất kỳ cỡ mẫu nào.
Đây là hai bản phân phối, một tiêu chuẩn thông thường (đường liền nét màu xanh lá cây) và một phân phối tương tự (90% tiêu chuẩn bình thường và 10% beta tiêu chuẩn (2,2), được đánh dấu bằng một đường đứt nét màu đỏ):
Cái màu đỏ không bình thường. Khi nói , chúng ta có rất ít cơ hội phát hiện ra sự khác biệt, vì vậy chúng ta không thể khẳng định rằng dữ liệu được rút ra từ một phân phối bình thường - nếu nó là từ một phân phối không bình thường như phân phối màu đỏ thì sao?n = 100
Các phân số nhỏ hơn của betas được tiêu chuẩn hóa với các tham số bằng nhau nhưng lớn hơn sẽ khó thấy hơn so với bình thường.
Nhưng do dữ liệu thực tế hầu như không bao giờ từ một phân phối đơn giản nào đó, nếu chúng ta có một nhà tiên tri hoàn hảo (hoặc kích thước mẫu vô hạn hiệu quả), về cơ bản chúng ta sẽ luôn bác bỏ giả thuyết rằng dữ liệu là từ một dạng phân phối đơn giản.
Như George Box nổi tiếng đã nói , " Tất cả các mô hình đều sai, nhưng một số mô hình là hữu ích. "
Xem xét, ví dụ, kiểm tra tính bình thường. Nó có thể là dữ liệu thực sự đến từ một cái gì đó gần với bình thường, nhưng liệu chúng có bao giờ chính xác bình thường? Họ có lẽ không bao giờ được.
Thay vào đó, điều tốt nhất bạn có thể hy vọng với hình thức kiểm tra đó là tình huống bạn mô tả. (Xem, ví dụ, bài đăng Kiểm tra tính quy phạm về cơ bản là vô dụng?, Nhưng có một số bài đăng khác ở đây tạo ra các điểm liên quan)
F
Hãy xem xét hình ảnh trên một lần nữa. Phân phối màu đỏ là không bình thường và với một mẫu thực sự lớn, chúng tôi có thể từ chối kiểm tra tính quy phạm dựa trên mẫu từ nó ... nhưng với kích thước mẫu nhỏ hơn nhiều, hồi quy và hai thử nghiệm t mẫu (và nhiều thử nghiệm khác bên cạnh đó) sẽ hành xử độc đáo đến mức khiến nó trở nên vô nghĩa khi thậm chí lo lắng về tính phi quy tắc đó dù chỉ một chút.
μ = μ0
Bạn có thể chỉ định một số dạng sai lệch cụ thể và xem xét một số thứ như kiểm tra tương đương, nhưng nó rất khó với sự phù hợp bởi vì có rất nhiều cách để phân phối gần nhưng khác với cách giả định và khác các hình thức khác biệt có thể có tác động khác nhau đến phân tích. Nếu lựa chọn thay thế là một họ rộng hơn bao gồm null như một trường hợp đặc biệt, thì thử nghiệm tương đương có ý nghĩa hơn (ví dụ thử nghiệm theo cấp số nhân với gamma) - và thực tế, phương pháp "thử nghiệm hai phía" mang lại, và điều đó có thể là một cách để chính thức hóa "đủ gần" (hoặc sẽ là nếu mô hình gamma là đúng, nhưng trên thực tế, chính nó sẽ gần như chắc chắn bị từ chối bởi một thử nghiệm phù hợp thông thường,
Mức độ tốt của kiểm tra sự phù hợp (và thường rộng hơn, kiểm tra giả thuyết) thực sự chỉ phù hợp với một phạm vi tình huống khá hạn chế. Câu hỏi mà mọi người thường muốn trả lời không quá chính xác, nhưng hơi mơ hồ và khó trả lời hơn - nhưng như John Tukey đã nói, " Tốt hơn là một câu trả lời gần đúng cho câu hỏi đúng, thường mơ hồ, hơn là một câu trả lời chính xác cho câu hỏi sai, luôn luôn có thể được thực hiện chính xác. "
Các cách tiếp cận hợp lý để trả lời câu hỏi mơ hồ hơn có thể bao gồm các điều tra mô phỏng và lấy mẫu lại để đánh giá mức độ nhạy cảm của phân tích mong muốn đối với giả định mà bạn đang xem xét, so với các tình huống khác cũng phù hợp với dữ liệu có sẵn.
ε