Làm thế nào để xác định giả thuyết khống trong thử nghiệm giả thuyết


15

Một quy tắc tốt cho cách chọn câu hỏi cho giả thuyết null là gì. Chẳng hạn, nếu tôi muốn kiểm tra xem giả thuyết B có đúng không, tôi có nên sử dụng B làm null, B làm giả thuyết thay thế hay KHÔNG B làm null? Tôi hy vọng câu hỏi là rõ ràng. Tôi biết rằng nó có liên quan đến lỗi tôi muốn giảm thiểu (Loại I?), Nhưng tôi cứ quên nó đi như thế nào, vì tôi không có một trực giác rõ ràng được xây dựng cho nó. Cảm ơn.


Các bạn ... phản ứng xuất sắc. Tất cả đều hữu ích. Nó vẫn làm tôi ngạc nhiên khi tôi có được mức độ hợp tác này trên web, chỉ vì mọi người quan tâm. Ồ cảm ơn nhé !
Nestor

Câu trả lời:


17

Một nguyên tắc nhỏ từ một cố vấn tốt của tôi là đặt Giả thuyết Null cho kết quả mà bạn không muốn là sự thật, tức là kết quả mà bạn muốn đối diện trực tiếp.

Ví dụ cơ bản: Giả sử bạn đã phát triển một phương pháp điều trị y tế mới và bạn muốn chứng minh rằng nó thực sự tốt hơn giả dược. Vì vậy, bạn đặt Giả thuyết Null điều trị mới bằng hoặc tệ hơn giả dược và Giả thuyết thay thế H 1 : = điều trị mới tốt hơn giả dược.H0:=H1:=

Điều này là do trong quá trình kiểm tra thống kê, bạn có thể từ chối Giả thuyết Null (và ủng hộ Giả thuyết thay thế) hoặc bạn không thể từ chối nó. Vì "mục tiêu" của bạn là từ chối Giả thuyết Null mà bạn đặt nó cho kết quả mà bạn không muốn là đúng.

Lưu ý bên lề: Tôi biết rằng người ta không nên thiết lập một bài kiểm tra thống kê để vặn nó và phá vỡ nó cho đến khi Giả thuyết Null bị từ chối, ngôn ngữ thông thường chỉ được sử dụng để làm cho quy tắc này dễ nhớ hơn.

Điều này cũng có thể hữu ích: ý nghĩa của giá trị p và giá trị t trong các kiểm tra thống kê là gì? và / hoặc giới thiệu tốt về kiểm tra giả thuyết thống kê cho các nhà khoa học máy tính là gì?


6

Nếu giả thuyết B là giả thuyết thú vị, bạn có thể coi not-B là giả thuyết và kiểm soát null, thì dưới null, xác suất xảy ra lỗi loại I vì từ chối không B ở cấp độ . Từ chối không-B sau đó được hiểu là bằng chứng có lợi cho B vì chúng tôi kiểm soát lỗi loại I, do đó không chắc là không-B là đúng. Bối rối ... ? α

Lấy ví dụ về điều trị so với không điều trị trong hai nhóm từ dân số. Giả thuyết thú vị là việc điều trị có hiệu quả, nghĩa là có sự khác biệt giữa nhóm được điều trị và nhóm không được điều trị do điều trị. Giả thuyết khống là không có sự khác biệt và chúng tôi kiểm soát xác suất từ ​​chối sai giả thuyết này. Do đó, chúng tôi kiểm soát xác suất kết luận sai rằng có hiệu quả điều trị khi không có hiệu quả điều trị. Lỗi loại II là xác suất chấp nhận sai null khi có hiệu lực điều trị.

Công thức trên được dựa trên khung Neyman-Pearson để kiểm tra thống kê, trong đó kiểm tra thống kê được coi là một vấn đề quyết định giữa các trường hợp, null và thay thế. Cấp độ là tỷ lệ số lần chúng tôi mắc lỗi loại I nếu chúng tôi (độc lập) lặp lại thử nghiệm. Trong khuôn khổ này thực sự không có bất kỳ sự phân biệt chính thức nào giữa null và thay thế. Nếu chúng ta trao đổi null và thay thế, chúng ta trao đổi xác suất của lỗi loại I và loại II. Tuy nhiên, chúng tôi đã không kiểm soát xác suất lỗi loại II ở trên (điều này phụ thuộc vào hiệu quả điều trị lớn như thế nào) và do sự bất cân xứng này, chúng tôi có thể muốn nói rằng chúng tôiα không từ chốigiả thuyết null (thay vì chúng tôi chấp nhận giả thuyết null). Vì vậy, chúng ta nên cẩn thận về việc kết luận rằng giả thuyết khống là đúng chỉ vì chúng ta không thể bác bỏ nó.

Trong khung kiểm tra ý nghĩa Ngư nghiệp thực sự chỉ có một giả thuyết null và một tính toán, dưới giá trị null, giá trị cho dữ liệu được quan sát. Giá trị p nhỏ hơn được hiểu là bằng chứng mạnh mẽ hơn chống lại null. Ở đây, giả thuyết null chắc chắn không phải là B (không có tác dụng điều trị) và giá trị p được hiểu là lượng bằng chứng chống lại null. Với một giá trị p nhỏ, chúng tôi có thể tự tin từ chối null, rằng không có hiệu quả điều trị và kết luận rằng có hiệu quả điều trị. Trong khung này, chúng tôi chỉ có thể từ chối hoặc không từ chối (không bao giờ chấp nhận) null và tất cả chỉ là làm sai lệch null. Lưu ý rằng pppppp-giá trị không cần phải được chứng minh bằng số lượng quyết định (tưởng tượng) lặp đi lặp lại.

Không khuôn khổ nào là không có vấn đề, và thuật ngữ thường được trộn lẫn. Tôi có thể giới thiệu cuốn sách Bằng chứng thống kê: mô hình khả năng của Richard M. Royall để xử lý rõ ràng các khái niệm khác nhau.


5

Phản ứng "thường xuyên" là phát minh ra một giả thuyết không có dạng "không phải B" và sau đó tranh luận chống lại "không phải B", như trong phản ứng của Steffen. Đây là tương đương logic của việc đưa ra lập luận "Bạn sai, do đó tôi phải đúng". Đây là loại sử dụng của chính trị gia lý luận (tức là bên kia là xấu, do đó chúng tôi là tốt). Nó là khá khó khăn để đối phó với hơn 1 thay thế theo loại lý luận này. Điều này là do lập luận "bạn sai, do đó tôi đúng" chỉ có ý nghĩa khi cả hai không thể sai, điều này chắc chắn có thể xảy ra khi có nhiều hơn một giả thuyết thay thế.

Phản hồi "Bayes" chỉ đơn giản là tính xác suất của giả thuyết mà bạn quan tâm để kiểm tra, có điều kiện dựa trên bất kỳ bằng chứng nào bạn có. Luôn luôn điều này chứa thông tin trước, chỉ đơn giản là các giả định bạn đã thực hiện để làm cho vấn đề của bạn được đặt ra tốt (tất cả các quy trình thống kê dựa trên thông tin trước, những điều Bayes chỉ làm cho chúng rõ ràng hơn). Nó cũng thường bao gồm một số dữ liệu và chúng ta có định lý Bayes

P(H0|DTôi)= =P(H0|Tôi)P(D|H0Tôi)ΣkP(Hk|Tôi)P(D|HkTôi)

Biểu mẫu này độc lập với cái được gọi là "null" và cái được gọi là "thay thế", bởi vì bạn phải tính toán chính xác cùng một đại lượng cho mọi giả thuyết mà bạn sẽ xem xét - trước và khả năng. Điều này có nghĩa là tương tự để tính tỷ lệ lỗi "loại 1" và "loại 2" trong thử nghiệm giả thuyết Neyman Pearson, đơn giản là vì tỷ lệ lỗi "loại 2" khiH0 là "null" giống như tỷ lệ lỗi "loại 1" với H0 is the "alternative". It is only the connotations implied by the words "null" and "alternative" which make them seem different. You can show equivalence in the case of the "Neyman Pearson Lemma" when there are two hypothesis, for this is simply the likelihood ratio, which is given at once by taking the odds of the above bayes theorem:

P(H0|DI)P(H1|DI)=P(H0|I)P(H1|I)×P(D|H0I)P(D|H1I)=P(H0|I)P(H1|I)×Λ

So the decision problems are the same: accept H0 when Λ>Λ~ for some cut-off Λ~, and accept H1 otherwise. Thus, the procedures are basically different rationales for choosing the cut-off value, or decision boundary. "Bayesians" would say it should be the product of the prior odds times the loss ratio L2L1 where L1 is the "type 1 error loss" and L2 is the "type 2 error loss". These are losses, not probabilities, which describe the relative severity of making each of the two errors. The frequentist criterion is to minimise the one of the average error rates, type 1 or 2, while keeping the other fixed. But because they lead to the same form of decision boundary, we can always find an equivalent bayesian prior*loss ratio for every frequentist minimised error rate.

In short, if you are using the likelihood ratio to test your hypothesis, it does not matter what you call the null hypothesis. Switching the null to the alternative just changes the decision to Λ1<Λ~1 which is mathematically the same thing (you will make the same decision - but based on inverse chi-square cut-off rather than chi-square for your p-value). Playing word games with "failing to reject the null" just doesn't apply to the hypothesis test, because it is a decision, so if there are only two options, then "failing to reject the null" means the same thing as "accepting the null".


3
That first paragraph is a parody of the classical approach to hypothesis testing.
whuber

Hypothesis testing is not always a matter of making a decision. It's often formulated as such, but in science the question may be to document that the null is false and by how much. I view the word playing game as a reminder of this objective. From this point of view, failing to reject is not a decision to accept but a lack of evidence in the data to reject.
NRH

@NRH - I agree, but that is not always the objective. If you want to test a new theory, you want to know how likely it is to be true, just as much you want to know how likely it is false. And although an hypothesis test does not always directly lead to a decision, it seems like a waste of time to bother with testing it if it will not eventually lead to a decision. You are in fact already formulating a decision in your comment: "act as if the null is false". There is only one alternative to this: "act as if the null is true". If there is more than one alternative, then the hypothesis ...
probabilityislogic

(cont'd).. test has not been well defined, and is "mathematically ill-posed" so to speak. There may be great uncertainty about this decision, but there is no other alternatives, the null can't be not true and not false at the same time, unless you have an ill-posed/ambiguous problem. But in this case hypothesis testing is pointless - there can be no proper conclusion.
probabilityislogic

(continuing the rant) - and if the goal is to simply quantify the evidence against the null, then you don't need a hypothesis test. This is what a p-value is for - you don't need to accept or reject, just report its value.
probabilityislogic

1

The null hypothesis should generally assume that differences in a response variable are due to error alone.

For example if you want to test the effect of some factor A on response x, then the null would be: H0 = There is no effect of A on response x.

Failing to reject this null hypothesis would be interpreted as:

1) any differences in x are due to error alone and not A or,

2) that the data are inadequate to detect a difference even though one exists (see Type 2 error below).

Rejecting this null hypothesis would be interpreted as the alternative hypothesis: Ha = There is an effect of A on response x, is true.

Type 1 and Type 2 errors are related to the use of the null hypothesis but not its designation really. Type 1 error occurs when you reject H0 even though it is true - that is, you incorrectly conclude an effect of A on x when one didn't exist. Type 2 error occurs when you fail to reject the H0 even though it is false - that is, you incorrectly conclude no effect of A on x even though one exists.


1
The third paragraph seems to imply that failing to reject the null means the null is true, but clearly that's wrong: the alternative could be true (and typically is), but does not differ sufficiently from the null to be detected with the given data.
whuber

@whuber - good point, I will edit the answer to reflect this
DQdlM
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.