Sự bất đồng giữa giá trị p và khoảng tin cậy


8

Đây là một câu hỏi liên quan đến bài kiểm tra t trong SPSS.

Tôi có hai nhóm và tôi muốn kiểm tra xem hai phương tiện có bằng nhau không. Tôi đang sử dụng thử nghiệm t với bootstrapping. Cuối cùng, tôi nhận được giá trị p <0,005, điều này thường khiến tôi bác bỏ giả thuyết khống rằng phương tiện của hai quần thể là bằng nhau nhưng trong trường hợp của tôi, số 0 nằm trong khoảng tin cậy bootstrap 95% dựa trên 1000 mẫu .

Tôi vẫn từ chối giả thuyết về phương tiện bình đẳng?


1
Để làm rõ, bạn đã tiến hành kiểm tra khởi động t mà từ đó bạn hiện đang so sánh giá trị p và 95% CI, hoặc bạn đã chạy thử nghiệm t tiêu chuẩn (không phải bootstrapping) để lấy giá trị p và chỉ sử dụng bootstrapping cho CI?
Rose Hartman

Câu trả lời:


7

Hãy cẩn thận: Câu trả lời này giả định rằng câu hỏi là về việc diễn giải các giá trị p và giá trị khởi động. So sánh giữa giá trị p truyền thống (không phải bootstrapping) và CI bootstrapping sẽ là một vấn đề khác.

Với thử nghiệm t truyền thống (không phải bootstrapping), 95% CI và vị trí của giá trị p so với ngưỡng 0,05 có ý nghĩa sẽ luôn cho bạn biết điều tương tự. Đó là bởi vì cả hai đều dựa trên cùng một thông tin: phân phối t cho mức độ tự do của bạn và sai số trung bình và tiêu chuẩn quan sát được trong mẫu của bạn (hoặc sự khác biệt giữa phương tiện và lỗi tiêu chuẩn, trong trường hợp của một mẫu hai kiểm tra). Nếu CI của bạn không trùng với 0, thì giá trị p của bạn nhất thiết phải là <.05 --- trừ khi, tất nhiên, trừ khi có lỗi trong phần mềm hoặc lỗi người dùng khi triển khai hoặc giải thích bài kiểm tra.

Với thử nghiệm t bootstrapping, giá trị CI và p đều được tính trực tiếp từ phân phối theo kinh nghiệm được tạo bởi bootstrapping: giá trị p chỉ đơn giản là bao nhiêu phần trăm chênh lệch nhóm bootstrapping cực hơn so với chênh lệch quan sát ban đầu; CI 95% là 95% trung bình của sự khác biệt nhóm bootstrapping. Giá trị p và CI không thể không đồng ý về tầm quan trọng trong thử nghiệm khởi động.

Bạn có chấp nhận hoặc từ chối giả thuyết không?

Trong bối cảnh của một thử nghiệm bootstrapping, giá trị p (so với CI) phản ánh trực tiếp hơn tinh thần của thử nghiệm giả thuyết, do đó, sẽ hợp lý nhất khi dựa vào giá trị đó để quyết định có từ chối null hay không alpha mong muốn của bạn (thường là 0,05). Vì vậy, trong trường hợp của bạn, trong đó giá trị p nhỏ hơn 0,05 nhưng CI 95% chứa 0, tôi khuyên bạn nên từ chối giả thuyết null .

Tất cả những điều này bỏ qua những ý tưởng lớn về tầm quan trọng của "tầm quan trọng" thực sự và việc kiểm tra ý nghĩa giả thuyết null có thực sự hữu ích của một công cụ hay không. Tóm lại, tôi luôn khuyên bạn nên khen ngợi bất kỳ phân tích thử nghiệm quan trọng nào với ước tính kích thước hiệu ứng (đối với thử nghiệm t hai mẫu, ước tính kích thước hiệu ứng tốt nhất có thể sẽ là Cohen d ), có thể cung cấp một số ngữ cảnh bổ sung để giúp bạn hiểu kết quả của mình.

Bài viết hữu ích liên quan: ý nghĩa của khoảng tin cậy được lấy từ các mẫu bootstrapping là gì?


1
Đây là một câu trả lời tuyệt vời (+1), nhưng một số lời khuyên về cách OP tiếp cận cho dù anh ấy chấp nhận hay từ chối Null sẽ làm tròn câu trả lời cho câu hỏi cuối cùng của OP.
Ashe

@Ashe Cảm ơn! Bạn nói đúng rằng tôi đã không trả lời câu hỏi trung tâm. Tôi sẽ chỉnh sửa để cải thiện điều đó.
Rose Hartman

"Đối với thử nghiệm t hai mẫu, ước tính kích thước hiệu ứng tốt nhất có thể sẽ là Cohen's d" Đây có phải là đặc trưng cho bootstrapping không? Bởi vì tôi sẽ nghĩ cho một thử nghiệm t bình thường, khoảng tin cậy sẽ cung cấp cho bạn thông tin tốt nhất về kích thước hiệu ứng trên thang đo thực tế mà bạn đã thử nghiệm.
David Ernst

Cohen d là cho bất kỳ sự khác biệt hai nhóm; bootstrapping hay không là không liên quan. Các TCTD thường không được coi là ước tính về "kích thước hiệu ứng" vì chúng phụ thuộc vào kích thước mẫu (ví dụ: en.wikipedia.org/wiki/iêu : "Không giống như thống kê kiểm tra t, kích thước hiệu ứng nhằm ước tính một tham số dân số và không bị ảnh hưởng theo cỡ mẫu. ") Có lẽ điều bạn băn khoăn là ước tính kích thước hiệu ứng so với tiêu chuẩn? Kích thước hiệu ứng không đạt tiêu chuẩn cho hai nhóm chỉ là sự khác biệt thô giữa các phương tiện.
Rose Hartman

Cảm ơn nhiều! Giải thích của bạn về giá trị p và CI là gì trong bối cảnh kiểm tra khởi động là rất hữu ích. Như bạn đề nghị tôi đã xác định Cohen's d, một thống kê rất hữu ích trong việc tìm hiểu kết quả của tôi.
Liza Vieira

0

Nếu giá trị p của giả thuyết null nhỏ hơn 0,05 thì không nên chứa 0 trong khoảng tin cậy ở 0,05 của tham số mà bạn cho là bằng 0 trong giả thuyết null. Đây là điều tương tự. Vì vậy, có một lỗi hoặc bạn không kiểm tra giả thuyết tương tự.

EDIT , như các câu trả lời khác và nhận xét bên dưới chỉ ra chính xác, đây không phải là câu chuyện đầy đủ. Tuy nhiên, tôi vẫn nghĩ rằng nếu một thử nghiệm chỉ ra các nhóm có ý nghĩa khác nhau (p <0,005) và thử nghiệm khác không từ chối (p> 0,05), có lẽ các thử nghiệm thực sự đang kiểm tra một điều khác.

Mặc dù về mặt lý thuyết, sự khác biệt này có thể là do tiệm cận (bootstraps là xấp xỉ trên mẫu hữu hạn, các thử nghiệm khác là xấp xỉ dựa trên các giả định về tính quy tắc), sự khác biệt đó là lớn đáng ngạc nhiên. Tôi cho rằng nó lớn đến mức đáng báo động, và không hiểu được chuyện gì đang xảy ra với điều đó, bạn vẫn chưa nên đưa ra kết luận. Nhân tiện, đó cũng chính xác là những gì bạn đang làm, bằng cách đăng câu hỏi ở đây. Có lẽ bạn có thể chia sẻ những con số và làm cho câu hỏi thú vị này cụ thể hơn một chút.


2
Tôi không đồng ý. Khoảng tin cậy khởi động có thể không tuân theo kết quả của kiểm tra t, vì đây là một loại thủ tục khác hoàn toàn (trong trường hợp này dựa trên sự khác biệt của phương tiện nhóm). Đặc biệt là khi 'khoảng tin cậy bootstrap được điều chỉnh và tăng tốc được thực hiện, những điều như khoảng tin cậy không đối xứng xung quanh ước tính ban đầu (nghĩa là sự khác biệt của phương tiện nhóm trong trường hợp này) có thể xảy ra.
IWS
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.