Giá trị p là xác suất để có được một thống kê ít nhất là cực trị như giá trị quan sát được trong dữ liệu mẫu khi giả sử rằng giả thuyết null ( ) là đúng.
Về mặt đồ họa, điều này tương ứng với khu vực được xác định bởi thống kê mẫu trong phân phối mẫu mà người ta sẽ có được khi giả sử :
Tuy nhiên, vì hình dạng của phân phối giả định này thực sự dựa trên dữ liệu mẫu, việc căn giữa nó vào có vẻ như là một lựa chọn kỳ lạ đối với tôi.
Thay vào đó, nếu người ta sử dụng phân phối mẫu của thống kê, nghĩa là phân phối trung tâm trên thống kê mẫu, thì kiểm tra giả thuyết sẽ tương ứng với việc ước tính xác suất μ 0 cho các mẫu.
Trong trường hợp đó, giá trị p là xác suất để có được một thống kê ít nhất là cực như cho các dữ liệu thay vì định nghĩa ở trên.
Ngoài ra, một giải thích như vậy có lợi thế là có liên quan tốt với các khái niệm về khoảng tin cậy:
Một thử nghiệm giả thuyết với mức ý nghĩa sẽ tương đương với kiểm tra xem μ 0 nằm trong ( 1 - α ) Khoảng tin cậy của sự phân bố lấy mẫu.
Do đó, tôi cảm thấy rằng việc tập trung vào phân phối trên có thể là một biến chứng không cần thiết.
Có bất kỳ biện minh quan trọng nào cho bước này mà tôi không xem xét?