Bối cảnh
Điều này hơi giống với câu hỏi này , nhưng tôi không nghĩ đó là một bản sao chính xác.
Khi bạn tìm cách hướng dẫn cách thực hiện kiểm tra giả thuyết bootstrap, người ta thường nói rằng sử dụng phân phối theo kinh nghiệm cho các khoảng tin cậy là tốt nhưng bạn cần bootstrap chính xác từ phân phối theo giả thuyết null để có được p- giá trị. Ví dụ, xem câu trả lời được chấp nhận cho câu hỏi này . Một tìm kiếm chung trên internet dường như cho thấy câu trả lời tương tự.
Lý do không sử dụng giá trị p dựa trên phân phối theo kinh nghiệm là vì hầu hết thời gian chúng tôi không có bất biến dịch thuật.
Thí dụ
Hãy để tôi đưa ra một ví dụ ngắn. Chúng tôi có một đồng xu và chúng tôi muốn thực hiện một thử nghiệm một phía để xem tần số của các đầu có lớn hơn 0,5 không
Chúng tôi thực hiện thử nghiệm và nhận đầu. Giá trị p thực sự cho thử nghiệm này sẽ là .
Mặt khác, nếu chúng ta khởi động 14 trong số 20 đầu của mình, chúng ta sẽ lấy mẫu một cách hiệu quả từ phân phối nhị thức với và . Thay đổi phân phối này bằng cách trừ 0,2, chúng tôi sẽ nhận được một kết quả gần như không đáng kể khi kiểm tra giá trị quan sát của chúng tôi là 0,7 so với phân phối theo kinh nghiệm thu được.
Trong trường hợp này, sự khác biệt là rất nhỏ, nhưng nó sẽ lớn hơn khi tỷ lệ thành công mà chúng tôi kiểm tra gần bằng 1.
Câu hỏi
Bây giờ hãy để tôi đi đến điểm thực sự của câu hỏi của tôi: khiếm khuyết tương tự cũng giữ cho khoảng tin cậy. Trong thực tế, nếu khoảng tin cậy có mức tin cậy đã nêu thì khoảng tin cậy không chứa tham số theo giả thuyết null tương đương với việc từ chối giả thuyết null ở mức ý nghĩa .
Tại sao các khoảng tin cậy dựa trên phân phối theo kinh nghiệm được chấp nhận rộng rãi và giá trị p không?
Có một lý do sâu xa hơn hay là mọi người không bảo thủ với khoảng tin cậy?
Trong câu trả lời này, Peter Dalgaard đưa ra một câu trả lời có vẻ đồng ý với lập luận của tôi. Anh ta nói:
Không có gì đặc biệt sai về dòng lý luận này, hoặc ít nhất là không (nhiều) tệ hơn tính toán của CI.
(Phần lớn) đến từ đâu? Nó ngụ ý rằng việc tạo ra các giá trị p theo cách đó hơi tệ hơn, nhưng không giải thích chi tiết.
Suy nghĩ cuối cùng
Ngoài ra, trong phần Giới thiệu về Bootstrap của Efron và Tibshirani, họ dành rất nhiều khoảng trống cho các khoảng tin cậy nhưng không dành cho giá trị p trừ khi chúng được tạo ra theo phân phối giả thuyết null thích hợp, ngoại trừ một dòng bỏ đi về sự tương đương chung của khoảng tin cậy và giá trị p trong chương về kiểm tra hoán vị.
Chúng ta cũng hãy quay lại câu hỏi đầu tiên tôi liên kết. Tôi đồng ý với câu trả lời của Michael Chernick, nhưng một lần nữa ông cũng lập luận rằng cả khoảng tin cậy và giá trị p dựa trên phân phối bootstrap theo kinh nghiệm đều không đáng tin cậy như nhau trong một số tình huống. Nó không giải thích lý do tại sao bạn tìm thấy nhiều người nói với bạn rằng các khoảng đó là ok, nhưng giá trị p thì không.