Tại sao các nhà thống kê nói rằng một kết quả không có ý nghĩa có nghĩa là bạn không thể từ chối null null trái ngược với việc chấp nhận giả thuyết null?


44

Các thử nghiệm thống kê truyền thống, giống như hai thử nghiệm t mẫu, tập trung vào việc cố gắng loại bỏ giả thuyết rằng không có sự khác biệt giữa chức năng của hai mẫu độc lập. Sau đó, chúng tôi chọn mức độ tin cậy và nói rằng nếu sự khác biệt của phương tiện vượt quá mức 95%, chúng tôi có thể từ chối giả thuyết khống. Nếu không, chúng tôi "không thể bác bỏ giả thuyết khống". Điều này dường như ngụ ý rằng chúng ta cũng không thể chấp nhận nó. Có nghĩa là chúng tôi không chắc liệu giả thuyết null có đúng không?

Bây giờ, tôi muốn thiết kế một thử nghiệm trong đó giả thuyết của tôi là chức năng của hai mẫu là giống nhau (trái ngược với các thử nghiệm thống kê truyền thống trong đó giả thuyết là hai mẫu khác nhau). Vì vậy, giả thuyết khống của tôi trở thành hai mẫu khác nhau. Làm thế nào tôi nên thiết kế một thử nghiệm như vậy? Nó sẽ đơn giản như nói rằng nếu giá trị p nhỏ hơn 5%, chúng ta có thể chấp nhận giả thuyết rằng không có sự khác biệt đáng kể?



sự khác biệt của phương tiện vượt quá mức 95%, chúng ta có thể bác bỏ giả thuyết khống. 95% không phải là "cấp độ", đây là 95 trường hợp trong số 100 trường hợp (so sánh), sự khác biệt về thống kê mẫu phát sinh do biến động lấy mẫu. nó có nghĩa là null được chấp nhận tại alpha = 0,05. Nói mức 95% là không đúng thuật ngữ.
Subhash C. Davar

Câu trả lời:


44

Theo truyền thống, giả thuyết null là một giá trị điểm. (Thông thường là , nhưng trên thực tế có thể là bất kỳ giá trị điểm nào.) Giả thuyết thay thế là giá trị thực là bất kỳ giá trị nào ngoài giá trị null . Bởi vì một biến liên tục (chẳng hạn như sự khác biệt trung bình) có thể đảm nhận một giá trị gần với giá trị null nhưng vẫn không hoàn toàn bằng nhau và do đó làm cho giả thuyết null sai, không thể chứng minh giả thuyết null điểm truyền thống. 0

Hãy tưởng tượng giả thuyết null của bạn là và sự khác biệt trung bình bạn quan sát được là 0,01 . Có hợp lý không khi cho rằng giả thuyết null là đúng? Bạn chưa biết; sẽ rất hữu ích khi biết khoảng tin cậy của chúng ta trông như thế nào. Giả sử khoảng tin cậy 95% của bạn là ( - 4,99 , 5,01 ) . Bây giờ, chúng ta có nên kết luận rằng giá trị thực là 0 không? Tôi sẽ không cảm thấy thoải mái khi nói điều đó, bởi vì CI rất rộng và có nhiều giá trị lớn khác không mà chúng ta có thể nghi ngờ là phù hợp với dữ liệu của chúng tôi. Vì vậy, hãy nói rằng chúng tôi thu thập nhiều, nhiều dữ liệu hơn và bây giờ sự khác biệt trung bình quan sát được của chúng tôi là 0,0100.01(4.99, 5.01)00.01, nhưng CI 95% là . Sự khác biệt trung bình quan sát được giữ nguyên (điều này sẽ rất tuyệt vời nếu nó thực sự xảy ra), nhưng khoảng tin cậy hiện không bao gồm giá trị null. Tất nhiên, đây chỉ là một thử nghiệm tư duy, nhưng nó sẽ làm cho những ý tưởng cơ bản rõ ràng. Chúng tôi không bao giờ có thể chứng minh rằng giá trị thực là bất kỳ giá trị điểm cụ thể nào; chúng ta chỉ có thể (có thể) chứng minh rằng đó là một số giá trị điểm. Trong thử nghiệm giả thuyết thống kê, thực tế là giá trị p> 0,05 (và 95% CI bao gồm 0) có nghĩa là chúng tôi không chắc liệu giả thuyết null có đúng không .(0.005, 0.015)

Đối với trường hợp cụ thể của bạn, bạn không thể xây dựng một bài kiểm tra trong đó giả thuyết thay thế là sự khác biệt trung bình là và giả thuyết null là bất cứ điều gì khác không. Điều này vi phạm logic của kiểm tra giả thuyết. Hoàn toàn hợp lý khi đó là giả thuyết khoa học, thực chất của bạn, nhưng nó không thể là giả thuyết thay thế của bạn trong một tình huống kiểm tra giả thuyết. 0

vậy, bạn có thể làm gì? Trong tình huống này, bạn sử dụng thử nghiệm tương đương. (Bạn có thể muốn đọc qua một số chủ đề của chúng tôi về chủ đề này bằng cách nhấp vào thẻ .) Chiến lược điển hình là sử dụng phương pháp kiểm tra hai phía. Rất ngắn gọn, bạn chọn một khoảng trong đó bạn sẽ xem xét rằng sự khác biệt trung bình thực sự cũng có thể là 0đối với tất cả những gì bạn có thể quan tâm, sau đó bạn thực hiện thử nghiệm một phía để xác định xem giá trị quan sát có nhỏ hơn giới hạn trên của khoảng đó hay không và thử nghiệm một phía khác để xem liệu nó có lớn hơn giới hạn dưới hay không. Nếu cả hai thử nghiệm này đều có ý nghĩa, thì bạn đã bác bỏ giả thuyết rằng giá trị thực nằm ngoài khoảng bạn quan tâm. Nếu một (hoặc cả hai) là không đáng kể, bạn không từ chối giả thuyết rằng giá trị thực nằm ngoài khoảng.

Ví dụ: giả sử mọi thứ trong khoảng gần bằng 0 đến mức bạn nghĩ rằng về cơ bản nó giống như 0 cho mục đích của bạn, vì vậy bạn sử dụng đó làm giả thuyết thực tế của mình. Bây giờ hãy tưởng tượng rằng bạn nhận được kết quả đầu tiên được mô tả ở trên. Mặc dù 0,01(0.02, 0.02)0.01nằm trong khoảng đó, bạn sẽ không thể từ chối giả thuyết null trong bài kiểm tra t một phía, vì vậy bạn sẽ không từ chối giả thuyết null. Mặt khác, hãy tưởng tượng rằng bạn đã có kết quả thứ hai được mô tả ở trên. Bây giờ bạn thấy rằng giá trị quan sát nằm trong khoảng được chỉ định và nó có thể được hiển thị là cả nhỏ hơn giới hạn trên và lớn hơn giới hạn dưới, vì vậy bạn có thể từ chối null. (Nó đáng chú ý là bạn có thể từ chối cả hai giả thuyết rằng giá trị thực sự là , giả thuyết rằng giá trị lời nói dối thật bên ngoài của khoảng ( - 0.02 , 0.02 )0(0.02, 0.02), có vẻ như bối rối lúc đầu, nhưng hoàn toàn phù hợp với logic của kiểm tra giả thuyết.)


1
"Theo truyền thống, giả thuyết null là một giá trị điểm" - mặc dù trong một số trường hợp chúng tôi viết giả thuyết null như thể nó là điểm, nhưng thực ra nó là hợp chất . Tôi tò mò không biết hàm ý của đối số trong đoạn đầu tiên của bạn là gì đối với các bài kiểm tra một phía. (Vì chúng tôi không - theo như tôi biết - viết "chấp nhận " ngay cả đối với các thử nghiệm một phía, tôi không chắc đoạn đầu tiên nắm bắt được lý do thực sự chúng tôi không viết "chấp nhận H 0. )H0H0
Cá bạc

1
H0H0:δ0δ>0<0

1
H0

4
δ0δ0H0:δ0

1
H0:δ<0H0:δ=0δ>0δ<0thực sự có thể dẫn đến việc chấp nhận một trong số họ (hoặc một kết quả không thể kết luận). Cộng với thử nghiệm một phía có ý nghĩa hơn từ quan điểm của Bayes. Cộng với dự đoán khoa học nên có một hướng. Tôi đoán tôi bắt đầu nghĩ rằng thử nghiệm một phía không đủ đánh giá cao.
amip nói rằng Phục hồi Monica

28

Hãy xem xét trường hợp giả thuyết null là một đồng xu có 2 đầu, tức là xác suất của các đầu là 1. Bây giờ dữ liệu là kết quả của việc lật một đồng xu một lần và nhìn thấy các đầu. Điều này dẫn đến giá trị p là 1 lớn hơn mọi alpha hợp lý. Điều này có nghĩa là đồng xu có 2 đầu? nó có thể, nhưng nó cũng có thể là một đồng tiền công bằng và chúng ta đã thấy những cái đầu do tình cờ (sẽ xảy ra 50% thời gian với một đồng tiền công bằng). Vì vậy, giá trị p cao trong trường hợp này nói rằng dữ liệu được quan sát là hoàn toàn phù hợp với null, nhưng nó cũng phù hợp với các khả năng khác.

Giống như bản án "Không có tội" tại tòa có thể có nghĩa là bị cáo vô tội, cũng có thể vì bị cáo có tội nhưng không có đủ bằng chứng. Điều tương tự với giả thuyết null chúng tôi không từ chối vì null có thể đúng hoặc có thể chúng tôi không có đủ bằng chứng để từ chối mặc dù đó là sai.


3
Tôi thích ví dụ "Không có tội". Đi thêm một bước nữa, mở lại các trường hợp dựa trên bằng chứng DNA mà chúng ta không biết cách sử dụng trong quá khứ và có một số tiền án bị lật ngược là một ví dụ hoàn hảo về việc thêm nhiều dữ liệu có thể là tất cả những gì cần thiết để có đủ bằng chứng.
Thomas Speidel

7

Sự vắng mặt của bằng chứng không phải là bằng chứng của sự vắng mặt (tiêu đề của Altman, Bland paper trên BMJ). Giá trị P chỉ cung cấp cho chúng tôi bằng chứng về sự vắng mặt khi chúng tôi coi chúng là đáng kể. Nếu không, họ không nói gì với chúng tôi. Do đó, không có bằng chứng. Nói cách khác: chúng tôi không biết và nhiều dữ liệu có thể giúp đỡ.


5

H0

H1H0

H0

Nếu chúng ta có hai mẫu mà chúng ta dự kiến ​​sẽ được phân phối giống hệt nhau thì giả thuyết null của chúng ta là các mẫu giống nhau. Nếu chúng ta có hai mẫu mà chúng ta mong đợi sẽ khác nhau (cực kỳ), giả thuyết không có giá trị của chúng ta là chúng khác nhau.


Và điều gì xảy ra nếu chúng ta không có kỳ vọng .. có thể là chúng ta không biết. Ngoài ra, quy tắc quyết định sẽ hoạt động như thế nào nếu chúng ta muốn bác bỏ giả thuyết rằng hai mẫu này khác nhau?
ryu576

Trong trường hợp bạn không có mong muốn, bạn muốn giữ cả hai loại lỗi nhỏ nhưng điều này không phải lúc nào cũng có thể. Bạn cần một biến phụ (chẳng hạn như tăng kích thước mẫu) để làm điều đó.
Một số

2
Vì chúng ta có thể từ chối null nhưng không chứng minh được nó là đúng nên null thường trái ngược với những gì chúng ta muốn chứng minh hoặc cho là đúng. Nếu chúng tôi tin rằng có một sự khác biệt thì null sẽ không có sự khác biệt để bạn có thể từ chối điều đó.
Greg Snow

@Greg Đó là một cách tiếp cận tốt nếu bạn biết cái nào bạn muốn là đúng mà có lẽ là trường hợp thông thường.
Một số

1
"Những gì bạn mong đợi" và "rằng chúng khác nhau" hoàn toàn không thể là giả thuyết thống kê vì chúng không phải là định lượng. Điều đó đi đến mấu chốt của vấn đề: sự bất cân xứng về vai trò giữa các giả thuyết null và các giả thuyết thay thế xuất phát từ khả năng xác định phân phối lấy mẫu của thống kê kiểm tra theo null, so với nhu cầu tham số hóa phân phối theo kích thước hiệu ứng theo giả thuyết thay thế. Đây cũng không phải là trường hợp chúng tôi "giảm thiểu lỗi Loại I": điều đó không bao giờ xảy ra (mức tối thiểu luôn là 0). Các thử nghiệm tìm kiếm sự cân bằng giữa tỷ lệ lỗi Loại I và II.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.