| x¯- 100 |
Fisher nghĩ rằng giá trị p có thể được hiểu là thước đo bằng chứng liên tục chống lại giả thuyết khống . Không có giá trị cố định cụ thể mà tại đó kết quả trở nên 'đáng kể'. Cách tôi thường cố gắng truyền đạt cho mọi người là chỉ ra rằng, đối với tất cả ý định và mục đích, p = .049 và p = .051 tạo thành một lượng bằng chứng giống hệt nhau chống lại giả thuyết khống (xem câu trả lời của @ Henrik tại đây ) .
Mặt khác, Neyman & Pearson nghĩ rằng bạn có thể sử dụng giá trị p như một phần của quy trình ra quyết định chính thức . Vào cuối cuộc điều tra của bạn, bạn phải từ chối giả thuyết null hoặc không từ chối giả thuyết null. Ngoài ra, giả thuyết khống có thể đúng hoặc không đúng. Do đó, có bốn khả năng lý thuyết (mặc dù trong bất kỳ tình huống cụ thể nào, chỉ có hai khả năng): bạn có thể đưa ra quyết định chính xác (không từ chối một giả thuyết đúng - hoặc từ chối một giả thuyết sai - null) hoặc bạn có thể đưa ra một loại Lỗi I hoặc loại II (bằng cách từ chối một null thực sự, hoặc không từ chối một giả thuyết null sai, tương ứng). (Lưu ý rằng giá trị p không giống với tỷ lệ lỗi loại I, mà tôi sẽ thảo luận ở đây.) Giá trị p cho phép quá trình quyết định có từ chối giả thuyết null hay không được chính thức hóa. Trong khuôn khổ Neyman-Pearson, quy trình sẽ hoạt động như thế này: có một giả thuyết không có giá trị mà mọi người sẽ tin theo mặc định nếu không có đủ bằng chứng ngược lại, và một giả thuyết thay thế mà bạn tin có thể đúng. Có một số tỷ lệ lỗi dài hạn mà bạn sẽ sẵn sàng sống cùng (lưu ý rằng không có lý do gì chúng phải là 5% và 20%). Với những điều này, bạn thiết kế nghiên cứu của mình để phân biệt giữa hai giả thuyết đó trong khi duy trì, nhiều nhất là các tỷ lệ lỗi đó, bằng cách tiến hành phân tích công suất và tiến hành nghiên cứu của bạn theo đó. (Thông thường, điều này có nghĩa là có đủ dữ liệu.) Sau khi nghiên cứu của bạn hoàn tất, bạn so sánh giá trị p của mình với αvà bác bỏ giả thuyết khống nếu ; nếu không, bạn không từ chối giả thuyết khống. Dù bằng cách nào, việc học của bạn đã hoàn tất và bạn đã đưa ra quyết định của mình. p < a
Cách tiếp cận của Ngư dân và Neyman-Pearson không giống nhau . Sự tranh chấp trung tâm của khung Neyman-Pearson là khi kết thúc nghiên cứu của bạn, bạn phải đưa ra quyết định và bỏ đi. Bị cáo buộc, một nhà nghiên cứu đã từng tiếp cận với Fisher với kết quả 'không đáng kể', hỏi anh ta nên làm gì, và Fisher nói, 'hãy lấy thêm dữ liệu'.
Cá nhân, tôi thấy logic thanh lịch của phương pháp Neyman-Pearson rất hấp dẫn. Nhưng tôi không nghĩ nó luôn phù hợp. Theo tôi, ít nhất hai điều kiện phải được đáp ứng trước khi khung Neyman-Pearson nên được xem xét:
- Cần có một số giả thuyết thay thế cụ thể ( cường độ hiệu ứng ) mà bạn quan tâm vì một số lý do. (Tôi không quan tâm kích thước hiệu ứng là gì, lý do của bạn là gì, liệu nó có căn cứ hay mạch lạc, v.v., chỉ có bạn có một cái.)
- Cần có một số lý do để nghi ngờ rằng hiệu ứng sẽ là 'đáng kể', nếu giả thuyết thay thế là đúng. (Trong thực tế, điều này thường có nghĩa là bạn đã tiến hành phân tích công suất và có đủ dữ liệu.)
Khi các điều kiện này không được đáp ứng, giá trị p vẫn có thể được hiểu theo ý tưởng của Fisher. Hơn nữa, dường như hầu hết thời gian những điều kiện này không được đáp ứng. Dưới đây là một số ví dụ dễ hiểu, trong đó các bài kiểm tra được chạy, nhưng các điều kiện trên không được đáp ứng:
- ANOVA omnibus cho mô hình hồi quy bội (có thể tìm hiểu làm thế nào tất cả các tham số độ dốc khác không được giả thuyết kết hợp với nhau để tạo ra một tham số phi tập trung cho phân phối F , nhưng nó không trực quan từ xa và tôi nghi ngờ bất kỳ ai Phải không)
- W
- giá trị của phép thử độ đồng nhất của phương sai (ví dụ: phép thử của Levene ; cùng nhận xét như trên)
- bất kỳ thử nghiệm nào khác để kiểm tra các giả định, v.v.
- các thử nghiệm t của hiệp phương sai khác với biến giải thích về mối quan tâm chính trong nghiên cứu
- nghiên cứu ban đầu / thăm dò (ví dụ, nghiên cứu thí điểm)