Hãy cẩn thận: Câu trả lời này giả định rằng câu hỏi là về việc diễn giải các giá trị p và giá trị khởi động. So sánh giữa giá trị p truyền thống (không phải bootstrapping) và CI bootstrapping sẽ là một vấn đề khác.
Với thử nghiệm t truyền thống (không phải bootstrapping), 95% CI và vị trí của giá trị p so với ngưỡng 0,05 có ý nghĩa sẽ luôn cho bạn biết điều tương tự. Đó là bởi vì cả hai đều dựa trên cùng một thông tin: phân phối t cho mức độ tự do của bạn và sai số trung bình và tiêu chuẩn quan sát được trong mẫu của bạn (hoặc sự khác biệt giữa phương tiện và lỗi tiêu chuẩn, trong trường hợp của một mẫu hai kiểm tra). Nếu CI của bạn không trùng với 0, thì giá trị p của bạn nhất thiết phải là <.05 --- trừ khi, tất nhiên, trừ khi có lỗi trong phần mềm hoặc lỗi người dùng khi triển khai hoặc giải thích bài kiểm tra.
Với thử nghiệm t bootstrapping, giá trị CI và p đều được tính trực tiếp từ phân phối theo kinh nghiệm được tạo bởi bootstrapping: giá trị p chỉ đơn giản là bao nhiêu phần trăm chênh lệch nhóm bootstrapping cực hơn so với chênh lệch quan sát ban đầu; CI 95% là 95% trung bình của sự khác biệt nhóm bootstrapping. Giá trị p và CI không thể không đồng ý về tầm quan trọng trong thử nghiệm khởi động.
Bạn có chấp nhận hoặc từ chối giả thuyết không?
Trong bối cảnh của một thử nghiệm bootstrapping, giá trị p (so với CI) phản ánh trực tiếp hơn tinh thần của thử nghiệm giả thuyết, do đó, sẽ hợp lý nhất khi dựa vào giá trị đó để quyết định có từ chối null hay không alpha mong muốn của bạn (thường là 0,05). Vì vậy, trong trường hợp của bạn, trong đó giá trị p nhỏ hơn 0,05 nhưng CI 95% chứa 0, tôi khuyên bạn nên từ chối giả thuyết null .
Tất cả những điều này bỏ qua những ý tưởng lớn về tầm quan trọng của "tầm quan trọng" thực sự và việc kiểm tra ý nghĩa giả thuyết null có thực sự hữu ích của một công cụ hay không. Tóm lại, tôi luôn khuyên bạn nên khen ngợi bất kỳ phân tích thử nghiệm quan trọng nào với ước tính kích thước hiệu ứng (đối với thử nghiệm t hai mẫu, ước tính kích thước hiệu ứng tốt nhất có thể sẽ là Cohen d ), có thể cung cấp một số ngữ cảnh bổ sung để giúp bạn hiểu kết quả của mình.
Bài viết hữu ích liên quan: ý nghĩa của khoảng tin cậy được lấy từ các mẫu bootstrapping là gì?