Nếu chúng ta không từ chối giả thuyết null trong một nghiên cứu lớn, thì đó có phải là bằng chứng cho null không?


59

Một hạn chế cơ bản của kiểm tra ý nghĩa giả thuyết null là nó không cho phép nhà nghiên cứu thu thập bằng chứng ủng hộ null ( Nguồn )

Tôi thấy yêu cầu này được lặp đi lặp lại ở nhiều nơi, nhưng tôi không thể tìm thấy sự biện minh cho nó. Nếu chúng tôi thực hiện một nghiên cứu lớn và chúng tôi không tìm thấy bằng chứng có ý nghĩa thống kê chống lại giả thuyết null , đó có phải là bằng chứng cho giả thuyết null không?


3
Nhưng chúng tôi bắt đầu phân tích bằng cách giả sử giả thuyết null là đúng ... Giả định có thể sai. Có thể chúng ta không có đủ sức mạnh nhưng điều đó không có nghĩa là giả định là đúng.
SmallChess

13
Nếu bạn chưa đọc nó, tôi đánh giá cao Trái đất tròn của Jacob Cohen (p <0,05) . Ông nhấn mạnh rằng với kích thước mẫu đủ lớn, bạn có thể từ chối khá nhiều giả thuyết khống. Ông cũng nói về việc sử dụng kích thước hiệu ứng và khoảng tin cậy, và ông đưa ra một bản trình bày gọn gàng về các phương pháp Bayes. Thêm vào đó, đó là một niềm vui thuần túy để đọc!
Đaminh Comtois

7
Các giả thuyết không có thể chỉ sai. ... Không từ chối null không phải là bằng chứng chống lại sự thay thế đủ gần.
Glen_b

3
Xem số liệu thống kê.stackexchange.com/questions/85903 . Nhưng cũng xem thống kê.stackexchange.com/questions/125541 . Nếu bằng cách thực hiện "một nghiên cứu lớn", bạn có nghĩa là "đủ lớn để có sức mạnh cao để phát hiện hiệu quả tối thiểu của lợi ích", thì việc từ chối có thể được hiểu là chấp nhận null.
amip nói rằng Phục hồi lại

7
Hãy xem xét nghịch lý xác nhận của Hempel. Kiểm tra một con quạ và thấy rằng nó có màu đen là sự hỗ trợ cho "tất cả những con quạ đều màu đen". Nhưng kiểm tra một cách logic một vật thể không phải màu đen và thấy rằng nó không phải là một con quạ, cũng phải ủng hộ đề xuất này vì các tuyên bố "tất cả các con quạ đều màu đen" và "tất cả các vật thể không phải là màu đen" đều tương đương về mặt logic ... độ phân giải là số lượng vật thể không phải màu đen lớn hơn nhiều so với số lượng con quạ, do đó, sự hỗ trợ mà một con quạ đen đưa ra cho mệnh đề này lớn hơn tương ứng với sự hỗ trợ nhỏ mà một con không phải con quạ đen mang lại.
Ben

Câu trả lời:


63

Không từ chối một giả thuyết null bằng chứng cho thấy giả thuyết null là đúng, nhưng nó có thể không phải là bằng chứng đặc biệt tốt và chắc chắn nó không chứng minh được giả thuyết null.

Hãy đi đường vòng ngắn. Hãy xem xét một lúc những lời sáo rỗng cũ:

Không có bằng chứng không phải là bằng chứng vắng mặt.

Mặc dù phổ biến của nó, tuyên bố này là vô nghĩa. Nếu bạn tìm kiếm thứ gì đó và không tìm thấy nó, đó hoàn toàn là bằng chứng cho thấy nó không có ở đó. Bằng chứng đó tốt đến mức nào phụ thuộc vào mức độ tìm kiếm của bạn kỹ lưỡng. Một tìm kiếm chữ thảo cung cấp bằng chứng yếu; một tìm kiếm đầy đủ cung cấp bằng chứng mạnh mẽ.

Bây giờ, trở lại thử nghiệm giả thuyết. Khi bạn chạy thử nghiệm giả thuyết, bạn đang tìm kiếm bằng chứng cho thấy giả thuyết null là không đúng sự thật. Nếu bạn không tìm thấy nó, thì đó chắc chắn là bằng chứng cho thấy giả thuyết khống đúng, nhưng bằng chứng đó mạnh đến mức nào? Để biết điều đó, bạn phải biết khả năng bằng chứng đó có thể khiến bạn từ chối giả thuyết khống có thể đã trốn tránh tìm kiếm của bạn như thế nào. Đó là, xác suất của âm tính giả trong bài kiểm tra của bạn là gì? Điều này có liên quan đến sức mạnh, , của thử nghiệm (cụ thể, nó là phần bù, 1- .)βββ

Bây giờ, sức mạnh của thử nghiệm, và do đó tỷ lệ âm tính giả, thường phụ thuộc vào kích thước của hiệu ứng bạn đang tìm kiếm. Hiệu ứng lớn dễ phát hiện hơn những hiệu ứng nhỏ. Do đó, không có duy nhất cho một thử nghiệm và do đó không có câu trả lời dứt khoát cho câu hỏi mức độ mạnh mẽ của bằng chứng cho giả thuyết null. Nói cách khác, luôn có một số kích thước hiệu ứng đủ nhỏ để nó không bị loại trừ bởi thí nghiệm.β

Từ đây, có hai cách để tiến hành. Đôi khi bạn biết rằng bạn không quan tâm đến kích thước hiệu ứng nhỏ hơn một số ngưỡng. Trong trường hợp đó, có lẽ bạn nên điều chỉnh lại thử nghiệm của mình sao cho giả thuyết null là hiệu ứng vượt quá ngưỡng đó, và sau đó kiểm tra giả thuyết thay thế rằng hiệu ứng nằm dưới ngưỡng. Ngoài ra, bạn có thể sử dụng kết quả của mình để đặt giới hạn về kích thước đáng tin cậy của hiệu ứng. Kết luận của bạn sẽ là kích thước của hiệu ứng nằm trong một khoảng thời gian, với một số xác suất. Cách tiếp cận đó chỉ là một bước nhỏ so với điều trị Bayes, mà bạn có thể muốn tìm hiểu thêm, nếu bạn thường xuyên thấy mình trong tình huống này.

Có một câu trả lời hay cho một câu hỏi liên quan chạm đến bằng chứng về sự vắng mặt mà bạn có thể thấy hữu ích.


9
Hãy xem xét kiểm tra giả thuyết với , với và giá trị p không đáng kể. Theo lý luận của bạn, đây là một số bằng chứng cho . Một thử nghiệm giả thuyết khác với , với và giá trị p không đáng kể, sau đó sẽ cung cấp một số bằng chứng cho . Bằng chứng này rõ ràng là mâu thuẫn. ˉ x = 3 μ 2 H 1 : μ < 4 ˉ x = 3 μ 4H1:μ>2x¯=3μ2H1:μ<4x¯=3μ4
Macond

4
Tôi không chắc chắn tôi làm theo lập luận của bạn. Từ những gì tôi có thể nói bạn đang mô tả hai thí nghiệm, mỗi thí nghiệm cung cấp bằng chứng (có lẽ khá yếu) cho một trong hai giả thuyết không nhất quán lẫn nhau. Tại sao điều này đáng ngạc nhiên?
Không ai vào

8
Một ví dụ khác: chung . Nếu bạn không từ chối, điều đó có nghĩa là bạn có bằng chứng rằng trong số tất cả các giá trị khác trên dòng thực, giá trị trung bình thực sự chính xác 0 ..? Câu trả lời này là sai lệch! H0:μ=0
Tim

3
Tôi thích tài khoản bằng chứng của bạn - dường như nhanh chóng dẫn đến yếu tố Bayes khi định lượng sự hỗ trợ dữ liệu của mô hình này so với mô hình khác. Liệu đưa ra bằng chứng ủng hộ hoặc chống ? Vâng nó phụ thuộc vào mật độ trước đây của bạn cho : nếu bạn nghĩ rằng 's hoặc ở đâu đó chỉ dưới 2 hoặc một nơi nào cao hơn nhiều so với 3, dữ liệu cung cấp bằng chứng cho nó; nếu bạn nghĩ 's đều có khả năng trở thành bất cứ nơi nào giữa -10 và 10, các dữ liệu cung cấp bằng chứng chống lại nó. Nhưng trong một phân tích thường xuyên, mức độ niềm tin của bạn không được đại diện bởi một con số, vậy khái niệm bằng chứng nào được áp dụng? L2LLLx¯=3μ2μμμ
Scortchi - Phục hồi Monica

6
Nó làm tôi nhớ đến giả thuyết Riemann. Chúng tôi đã tìm và tìm kiếm những con số không tầm thường bên ngoài dòng với phần thực 1/2, nhưng không thể tìm thấy bất kỳ. Và mặc dù chúng tôi không coi giả thuyết Riemann là đúng vì chúng tôi không chứng minh được, nhưng hầu hết các nhà toán học tin rằng đó là sự thật và có rất nhiều kết quả đúng với giả thuyết Riemann là đúng :) Vì vậy, trong trường hợp này chúng tôi đã giải thích không có bằng chứng làm bằng chứng cho sự vắng mặt
Ant

29

NHST dựa vào giá trị p, cho chúng ta biết: Với giả thuyết null là đúng, xác suất mà chúng ta quan sát dữ liệu của chúng ta (hoặc dữ liệu cực đoan hơn) là bao nhiêu?

Chúng tôi giả định rằng giả thuyết null là đúng, nó được đưa vào NHST rằng giả thuyết null là chính xác 100%. Giá trị p nhỏ cho chúng ta biết rằng, nếu giả thuyết null là đúng, dữ liệu của chúng tôi (hoặc dữ liệu cực đoan hơn) không có khả năng.

Nhưng giá trị p lớn cho chúng ta biết điều gì? Nó cho chúng ta biết rằng, với giả thuyết khống, dữ liệu của chúng ta (hoặc dữ liệu cực đoan hơn) có khả năng.

Nói chung, P (A | B) P (B | A).

Hãy tưởng tượng bạn muốn lấy một giá trị p lớn làm bằng chứng cho giả thuyết null. Bạn sẽ dựa vào logic này:

  • Nếu null là đúng, thì giá trị p cao có khả năng. ( Cập nhật: Không đúng. Xem bình luận bên dưới. )
  • Một giá trị p cao được tìm thấy.
  • Do đó, null là đúng.

Điều này có hình thức tổng quát hơn:

  • Nếu B đúng, thì A có khả năng.
  • A xảy ra.
  • Do đó, B là đúng.

Điều này là sai lầm, mặc dù, như có thể thấy bằng một ví dụ:

  • Nếu trời mưa bên ngoài, thì mặt đất bị ướt.
  • Mặt đất ẩm ướt.
  • Do đó, trời mưa.

Mặt đất rất có thể bị ướt vì trời mưa. Hoặc có thể là do một vòi phun nước, ai đó làm sạch máng xối của họ, vỡ nguồn nước, v.v. Những ví dụ cực đoan hơn có thể được tìm thấy trong liên kết ở trên.

Đó là một khái niệm rất khó nắm bắt. Nếu chúng ta muốn bằng chứng cho null, suy luận Bayes là bắt buộc. Đối với tôi, lời giải thích dễ tiếp cận nhất về logic này là của Rouder et al. (2016). trong giấy Có một bữa ăn trưa miễn phí trong suy luận? xuất bản trong Chủ đề Khoa học nhận thức, 8, trang 520 chiếc547.


3
Tôi không thích rằng tất cả các ví dụ của bạn đều kết luận "X là đúng". Có bằng chứng cho một cái gì đó không giống như kết luận một cái gì đó với sự chắc chắn 100%. Nếu tôi đi ra ngoài và mặt đất ẩm ướt, đó là bằng chứng cho "trời mưa". Bằng chứng đó làm cho nhiều khả năng mưa đã xảy ra.
Atte Juvonen

Điều đó công bằng. Đó là Rouder và cộng sự. bài báo tôi liên kết đến cuối câu trả lời của tôi không có ví dụ nào có kết luận chắc chắn.
Đánh dấu trắng

6
@AtteJuvonen vâng, chúng tôi có một số bằng chứng cho mưa, nhưng chúng tôi không biết khả năng của nó như thế nào, vì vậy kết luận duy nhất mà bạn có thể đưa ra là "trời có thể mưa, hoặc có thể là một thứ gì đó làm cho mặt đất ẩm ướt" . Vì vậy, bạn có bằng chứng không kết luận . Chỉ trên cơ sở số liệu thống kê Bayes, bạn có thể đưa ra lập luận ngược lại.
Tim

3
Tôi không đồng ý với kết luận của bạn "Nếu chúng tôi muốn có bằng chứng cho null, thì cần phải có suy luận Bayes"; nghiên cứu mà bạn đang trích dẫn là từ Wagenmakers, một người rất cứng rắn trong việc thống kê Bayesian nên rõ ràng họ lập luận rằng. Nhưng trên thực tế, người ta có thể dễ dàng có bằng chứng "cho null" trong mô hình thường xuyên, ví dụ bằng cách tiến hành TOST (hai bài kiểm tra một phía) cho tương đương. (cc @AtteJuvonen).
amip nói rằng Phục hồi lại

10
"Nếu null là đúng, thì giá trị p cao có khả năng." - điều này LAF không đúng. Nếu giả thuyết null là đúng, thìpU[0,1] , vì vậy giá trị cao không có khả năng cao hơn giá trị thấp theo giả thuyết null. Tất cả những gì bạn có thể nói là giá trị cao có nhiều khả năng dưới giá trị null hơn so với các giả thuyết khác - nhưng các giả thuyết có thể giữ hoặc không, vì vậy các giả thuyết không phải là không gian xác suất mà chúng ta đang hoạt động. Trừ khi chúng ta làm việc trong một mô hình Bayes! Và đó là nơi tranh luận của bạn không may bị phá vỡ. pp
S. Kolassa - Tái lập Monica

14

Để nắm bắt những gì sai với giả định, xem ví dụ sau:

Hãy tưởng tượng một bao vây trong một sở thú nơi bạn không thể nhìn thấy cư dân của nó. Bạn muốn kiểm tra giả thuyết rằng nó là nơi sinh sống của những con khỉ bằng cách đặt một quả chuối vào lồng và kiểm tra xem nó có biến mất vào ngày hôm sau không. Điều này được lặp lại N lần cho ý nghĩa thống kê nâng cao.

Bây giờ bạn có thể hình thành một giả thuyết không có giá trị: Cho rằng có những con khỉ trong chuồng, rất có thể chúng sẽ tìm và ăn chuối, vì vậy nếu chuối không được chạm vào mỗi ngày, thì rất khó có thể có bất kỳ con khỉ nào bên trong.

Nhưng bây giờ bạn thấy rằng chuối đã biến mất (gần như) mỗi ngày. Điều đó cho bạn biết rằng những con khỉ đang ở trong?

Tất nhiên là không, bởi vì có những động vật khác cũng thích chuối, hoặc có thể một số người chăm sóc vườn thú chu đáo gỡ chuối mỗi tối.

Vì vậy, sai lầm được thực hiện trong logic này là gì? Vấn đề là bạn không biết gì về xác suất chuối bị biến mất nếu không có khỉ bên trong. Để chứng thực cho giả thuyết null, xác suất biến mất chuối phải nhỏ nếu giả thuyết null sai, nhưng điều này không cần phải như vậy. Trong thực tế, sự kiện có thể có xác suất như nhau (hoặc thậm chí có thể xảy ra hơn) nếu giả thuyết null là sai.

Nếu không biết về xác suất này, bạn có thể nói chính xác không có gì về tính hợp lệ của giả thuyết null. Nếu những người chăm sóc vườn thú loại bỏ tất cả chuối mỗi tối, thí nghiệm này hoàn toàn vô giá trị, mặc dù thoạt nhìn có vẻ như bạn đã chứng thực giả thuyết khống.


Đây phải là câu trả lời được chấp nhận.
Emily L.

2
@amoeba Trong trường hợp này, null hyp sẽ là những con khỉ đang ở trong chuồng. Alt hyp sẽ không có con khỉ nào trong chuồng. Các mẫu tôi thu thập được là các quan sát "chuối đã biến mất" và "chuối vẫn còn đó" mỗi sáng. Đưa ra một số giả định về khỉ và khả năng tìm chuối của chúng, tôi có thể tính xác suất p mà tôi có thể thấy kết quả thực tế với khỉ trong lồng. Nếu chuối vẫn ở đó thường xuyên, tôi sẽ từ chối null null. Nếu chuối luôn biến mất, điều này phù hợp với hyp null, nhưng nó không chứng minh rằng khỉ đang ở trong lồng.
Thern

1
@amoeba Tôi không chắc có thể dịch trực tiếp ví dụ khỉ sang kịch bản kiểm tra t của bạn không. Theo hiểu biết của tôi, kiểm tra giả thuyết null nói chung có nghĩa là những gì Mark White đã viết trong câu trả lời của mình: "Với giả thuyết null là đúng, xác suất mà chúng ta quan sát dữ liệu của chúng ta (hoặc dữ liệu cực đoan hơn) là gì?". Kịch bản kiểm tra t của bạn là một trường hợp cụ thể về điều này, nhưng hiện tại tôi không thấy kịch bản này có thể được khái quát như thế nào. Từ cảm nhận của tôi, tôi sẽ nói rằng kịch bản của bạn và ví dụ khỉ là hai cách kiểm tra giả thuyết khác nhau không thể được ánh xạ trực tiếp với nhau.
Thern

1
Nếu vậy @Nebr, thì tôi lại rất bối rối về ý nghĩa của ví dụ con khỉ của bạn. T-test có lẽ là thử nghiệm giả thuyết phổ biến nhất; Tôi đã đề cập đến nó trong bình luận của tôi chỉ vì đó là một ví dụ điển hình của một bài kiểm tra. Nếu ví dụ khỉ của bạn không áp dụng (như bạn nói) cho điều này - điển hình! - tình hình, sau đó tôi hoang mang về ý nghĩa của nó. Trong thực tế, nếu bạn nói rằng ví dụ t-test và khỉ là "hai cách kiểm tra giả thuyết khác nhau", thì bạn có thể đưa ra một ví dụ về kiểm tra thống kê theo "ví dụ" con khỉ của bạn không? Chính xác thì ví dụ con khỉ của bạn là gì?
amip nói phục hồi Monica

1
@Nebr Tôi đồng ý rằng đó là một câu hỏi chung. Nhưng nếu bạn không thể cho tôi một ví dụ duy nhất về một bài kiểm tra thống kê thực sự có cùng tính chất với ví dụ con khỉ của bạn, thì tôi xin lỗi nhưng tôi sẽ phải xem xét ví dụ con khỉ của bạn không liên quan nhiều đến chủ đề này. Tôi không nói rằng ví dụ khỉ phải tương ứng với một bài kiểm tra t cụ thể. Nhưng nó phải tương ứng với một cái gì đó !!
amip nói rằng Phục hồi lại

14

Trong bài báo nổi tiếng của mình Tại sao hầu hết các kết quả nghiên cứu được công bố là sai , Ioannidis đã sử dụng lý luận Bayes và sai lầm cơ sở để cho rằng hầu hết các phát hiện đều là dương tính giả. Một thời gian ngắn, xác suất sau nghiên cứu rằng một giả thuyết nghiên cứu cụ thể là đúng phụ thuộc - trong số những điều khác - vào xác suất trước nghiên cứu của giả thuyết đã nói (tức là tỷ lệ cơ sở).

Như một phản ứng, Moonesinghe et al. (2007) đã sử dụng cùng một khuôn khổ để chỉ ra rằng sao chép làm tăng đáng kể xác suất sau nghiên cứu của một giả thuyết là đúng. Điều này có ý nghĩa: Nếu nhiều nghiên cứu có thể sao chép một phát hiện nhất định, chúng tôi chắc chắn hơn rằng giả thuyết được phỏng đoán là đúng.

Tôi đã sử dụng các công thức trong Moonesinghe et al. (2007) để tạo một biểu đồ cho thấy xác suất sau nghiên cứu trong trường hợp không thể sao chép một phát hiện. Giả sử rằng một giả thuyết nghiên cứu nhất định có xác suất trước nghiên cứu là đúng 50%. Hơn nữa, tôi cho rằng tất cả các nghiên cứu không có sai lệch (không thực tế!) Có sức mạnh 80% và sử dụng 0,05.αXác suất sau học

Biểu đồ cho thấy rằng nếu ít nhất 5 trong số 10 nghiên cứu không đạt được ý nghĩa, xác suất sau nghiên cứu của chúng tôi cho rằng giả thuyết này là gần đúng 0. Các mối quan hệ tương tự tồn tại cho nhiều nghiên cứu hơn. Phát hiện này cũng có ý nghĩa trực quan: Một thất bại lặp đi lặp lại để tìm ra một hiệu ứng củng cố niềm tin của chúng tôi rằng hiệu ứng đó rất có thể là sai. Lý do này phù hợp với câu trả lời được chấp nhận bởi @RPL.

Như một kịch bản thứ hai, hãy giả sử rằng các nghiên cứu chỉ có sức mạnh 50% (tất cả những thứ khác bằng nhau).Xác suất sau nghiên cứu_pow50

Bây giờ xác suất sau nghiên cứu của chúng tôi giảm chậm hơn, bởi vì mọi nghiên cứu chỉ có sức mạnh thấp để tìm thấy hiệu quả, nếu nó thực sự tồn tại.


Lưu ý rằng bạn có được tất cả bằng chứng về giả thuyết khống từ các trường hợp thử nghiệm thất bại giả thuyết này. Nhưng giả định từ OP là các thử nghiệm chứng thực cho giả thuyết null ("Nếu chúng tôi thực hiện một nghiên cứu lớn và chúng tôi không tìm thấy bằng chứng có ý nghĩa thống kê chống lại giả thuyết null, đó có phải là bằng chứng cho giả thuyết null không?"). Điều này tương ứng với phần bên trái của sơ đồ của bạn, và do đó, trong trường hợp xác suất ảnh hưởng vẫn là 50% (hoặc, nói chung, xác suất trước khi nghiên cứu), vì vậy bạn không thu được gì.
Thern

@Nebr tôi không hiểu. Nếu chúng tôi thực hiện 1 nghiên cứu lớn, được hỗ trợ tốt (công suất 95%) và chúng tôi không tìm thấy bằng chứng chống lại giả thuyết khống (tức là một thử nghiệm giả thuyết thống kê không có ý nghĩa trên mức 5%), xác suất sau nghiên cứu của chúng tôi sẽ được 0,05 trong khung đề cập (với xác suất trước nghiên cứu là 50%).
COOLSerdash

1
@Nebr Nhận xét cuối cùng của bạn không có ý nghĩa gì: nếu kết quả không đáng kể, nó có thể không phải là "dương tính giả".
amip nói rằng Phục hồi Monica

1
@Nebr If you have a negative, you found evidence against the null- Cái gì? Từ "phủ định" có nghĩa chính xác ngược lại. Giá trị p đáng kể được gọi là kết quả "dương"; một không quan trọng là một "tiêu cực".
amip nói rằng Phục hồi Monica

1
@Nebr 100% sức mạnh KHÔNG có nghĩa là "nếu H0 là đúng, chúng tôi có thể chắc chắn rằng chúng tôi sẽ luôn nhìn thấy H1". Điều đó có nghĩa là nếu H1 là đúng, chúng ta sẽ luôn thấy H1. Tôi sẽ không cố đọc bình luận của bạn thêm nữa, vì mỗi câu đều khó hiểu.
amip nói rằng Phục hồi Monica

12

Lời giải thích tốt nhất tôi từng thấy cho điều này là từ một người có trình độ đào tạo về toán học.

Kiểm tra ý nghĩa giả thuyết Null về cơ bản là một bằng chứng bằng mâu thuẫn: giả sử , có bằng chứng nào choH0H1 không? Nếu có bằng chứng cho , hãy từ chối và chấp nhận . Nhưng nếu không có bằng chứng cho , thì thông báo rằng là đúng vì bạn cho rằng là đúng khi bắt đầu.H1H0H1H1H0H0


4
Có lẽ bạn nên xem chủ đề này: stats.stackexchange.com/questions/163957/iêu

10

Nếu bạn không thích hệ quả của thử nghiệm giả thuyết này nhưng chưa sẵn sàng thực hiện bước nhảy vọt hoàn toàn cho các phương pháp Bayes, thì còn khoảng tin cậy thì sao?

Giả sử bạn lật một đồng xu lần và thấy đầu, dẫn đến bạn nói rằng khoảng tin cậy 95% cho xác suất của các đầu là . 4207820913[0.492,0.502]

Bạn chưa nói rằng bạn đã thấy bằng chứng rằng thực tế nó là , nhưng bằng chứng cho thấy sự tự tin về mức độ gần gũi của nó với .1212


2
Bayesian về khoảng tin cậy là gì?
kjetil b halvorsen

3
@kjetilbhalvorsen: Khoảng tin cậy không phải là Bayesian (khoảng tin cậy sẽ là), nhưng khoảng tin cậy cung cấp thêm thông tin về bằng chứng sau đó từ chối / không từ chối giả thuyết đơn giản
Henry

9

Có lẽ sẽ tốt hơn khi nói rằng việc không bác bỏ giả thuyết khống không phải là bằng chứng cho giả thuyết khống. Khi chúng tôi xem xét khả năng đầy đủ của dữ liệu, xem xét rõ ràng hơn về lượng dữ liệu, thì dữ liệu được thu thập có thể cung cấp hỗ trợ cho các tham số nằm trong giả thuyết null.

Tuy nhiên, chúng ta cũng nên suy nghĩ cẩn thận về các giả thuyết của mình. Cụ thể, việc không từ chối một giả thuyết điểm null không phải là bằng chứng rất tốt cho thấy giả thuyết điểm null là đúng. Trên thực tế, nó tích lũy bằng chứng cho thấy giá trị thực của tham số không quá xa so với điểm được đề cập. Các giả thuyết điểm null ở một mức độ nào đó là các cấu trúc nhân tạo và thường thì bạn không thực sự tin rằng chúng sẽ hoàn toàn chính xác.

Sẽ hợp lý hơn nhiều khi nói về việc không từ chối ủng hộ giả thuyết null, nếu bạn có thể đảo ngược ý nghĩa null và giả thuyết thay thế và nếu làm như vậy bạn sẽ từ chối giả thuyết null mới của mình. Khi bạn cố gắng làm điều đó với giả thuyết null điểm tiêu chuẩn, bạn sẽ thấy ngay rằng bạn sẽ không bao giờ có thể từ chối phần bổ sung của nó, bởi vì sau đó giả thuyết null đảo ngược của bạn chứa các giá trị tùy ý gần với điểm đang xem xét.

Mặt khác, nếu bạn nói, hãy kiểm tra giả thuyết null so với thay thế cho giá trị trung bình của phân phối bình thường, sau đó đối với bất kỳ giá trị thực nào của có kích thước mẫu - trừ khi giá trị thực của là hoặc - mà chúng tôi có xác suất gần như 100% rằng khoảng tin cậy cấp sẽ nằm hoàn toàn trong hoặc nằm ngoài khoảng này. Đối với bất kỳ cỡ mẫu hữu hạn nào, tất nhiên bạn có thể có các khoảng tin cậy nằm trên ranh giới, trong trường hợp đó không phải là tất cả bằng chứng mạnh mẽ cho giả thuyết khống.H0:|μ|δHA:|μ|>δμμδ+δ1α[δ,+δ]


4
+1. IMHO này phải là câu trả lời được chấp nhận. Tôi không hiểu tại sao nó có quá ít upvote.
amip nói phục hồi Monica

1
@amoeba vì nó được đăng muộn, nhưng tôi đồng ý và đã + 1'd.
Tim

6

Nó phụ thuộc vào cách bạn sử dụng ngôn ngữ. Theo lý thuyết quyết định của Pearson và Neyman, nó không phải là bằng chứng cho null, nhưng bạn phải cư xử như thể null là đúng.

Khó khăn đến từ modus BOTens. Phương pháp Bayes là một hình thức lý luận quy nạp và, như vậy, là một hình thức lý luận không đầy đủ. Các phương pháp giả thuyết Null là một hình thức xác suất của phương thức thu phí và do đó là một phần của lý luận suy diễn và do đó là một hình thức lý luận hoàn chỉnh.

Modus BOTens có dạng "nếu A đúng thì B đúng và B không đúng; do đó A không đúng". Trong hình thức này, nếu null là đúng thì dữ liệu sẽ xuất hiện theo cách cụ thể, chúng không xuất hiện theo cách đó, do đó (ở một mức độ tin cậy nào đó) null là không đúng (hoặc ít nhất là "bị làm sai lệch . "

Vấn đề là bạn muốn "Nếu A thì B và B." Từ điều này, bạn muốn suy ra A, nhưng điều đó không hợp lệ. "Nếu A thì B," không loại trừ "nếu không phải A thì B" cũng là một tuyên bố hợp lệ. Hãy xem xét câu nói "nếu đó là một con gấu, thì nó có thể bơi. Đó là một con cá (không phải là một con gấu)." Các tuyên bố không nói gì về khả năng của những con gấu không biết bơi.

Xác suất và thống kê là một nhánh của hùng biện và không phải là một nhánh của toán học. Nó là một người sử dụng toán học nặng nhưng không phải là một phần của toán học. Nó tồn tại vì nhiều lý do, thuyết phục, ra quyết định hoặc suy luận. Nó mở rộng các biện pháp tu từ thành một cuộc thảo luận kỷ luật về bằng chứng.


1
+1 để đề cập đến Neyman và Pearson (xem số liệu thống kê.stackexchange.com/questions/125541 ).
amip nói rằng Phục hồi lại

5

Tôi sẽ cố gắng minh họa điều này bằng một ví dụ.

Chúng ta hãy nghĩ rằng chúng ta đang lấy mẫu từ một dân số, với ý định kiểm tra ý nghĩa của nó . Chúng tôi nhận được một mẫu với giá trị trung bình . Nếu chúng tôi nhận được giá trị p không đáng kể, chúng tôi cũng sẽ nhận được giá trị p không đáng kể nếu chúng tôi đã kiểm tra bất kỳ giả thuyết null nào khác , sao cho nằm giữa và . Bây giờ với giá trị nào của chúng ta có bằng chứng?μx¯H0:μ=μiμiμ0x¯μ

Ngoài ra, khi chúng tôi nhận được các giá trị p đáng kể, chúng tôi không thu được bằng chứng cho một cụ thể , thay vào đó là bằng chứng chống lại (có thể được coi là bằng chứng cho , hoặc tùy theo tình huống). Bản chất của kiểm tra giả thuyết không cung cấp bằng chứng cho một cái gì đó, nó chỉ chống lại một cái gì đó, nếu nó làm.H1:μ=MH0:μ=μ0μμ0μ<μ0μ>μ0


"Bây giờ với giá trị nào của chúng ta có bằng chứng không?" - Chúng tôi có bằng chứng mạnh mẽ hơn cho các giá trị gần với giá trị trung bình mẫu và bằng chứng yếu hơn cho các giá trị xa hơn giá trị trung bình mẫu. Độ mạnh hay yếu phụ thuộc vào cỡ mẫu và phương sai. Có điều gì sai với cách giải thích này?
Atte Juvonen

Vâng, đây là một giải thích sai. Giá trị P không phải là xác suất của giả thuyết null là đúng, hoặc sức mạnh của bằng chứng ủng hộ giả thuyết null. Tương tự, bạn có thể ước tính khoảng, với giá trị trung bình mẫu ở giữa khoảng, nhưng điều này không có nghĩa là có xác suất dân số cao hơn có nghĩa là gần giữa khoảng. Có một tài liệu tham khảo cho một lời giải thích tốt về việc giải thích sai trong phần bình luận của Dominic Comtois cho câu hỏi của bạn.
Macond

"điều này không có nghĩa là có xác suất dân số cao hơn có nghĩa là gần giữa khoảng thời gian." - Điều này không thể chính xác. Tôi đọc báo nhưng không tìm thấy gì để chứng thực điều này.
Atte Juvonen

Giữa khoảng tin cậy tương ứng với 's, sẽ mang lại giá trị trung bình của mẫu được quan sát với xác suất cao hơn. Nhưng điều này không tương xứng với tuyên bố: " gần hơn ở giữa có xác suất trung bình cao hơn". Như đã nói nhiều lần bởi những người khác: . μμP(A|B)P(B|A)
Macond

4

Hãy xem xét các dữ liệu nhỏ (minh họa dưới đây) với trung bình , nói rằng bạn đã tiến hành một hai đuôi -test với , nơi . Thử nghiệm dường như không đáng kể với . Điều đó có nghĩa là của bạn là đúng không? Điều gì xảy ra nếu bạn đã thử nghiệm với ? Vì phân phối là đối xứng, thử nghiệm sẽ trả về giá trị tương tự . Vì vậy, bạn có cùng một lượng bằng chứng rằng và .x¯0tH0:x¯=μμ=0.5p>0.05H0μ=0.5tpμ=0.5μ=0.5

Hai giả thuyết thay thế

Ví dụ trên cho thấy giá trị nhỏ khiến chúng ta không tin vào và giá trị cao cho thấy dữ liệu của chúng tôi phù hợp hơn với , so với . Nếu bạn đã tiến hành nhiều thử nghiệm như vậy, thì bạn có thể tìm thấy đó rất có thể được cung cấp dữ liệu của chúng tôi và trên thực tế bạn sẽ sử dụng ước tính khả năng bán tối đa . Ý tưởng của MLE là bạn tìm kiếm giá trị như vậy của nhằm tối đa hóa xác suất quan sát dữ liệu của bạn được cung cấp , điều gì dẫn đến chức năng khả năngpH0pH0 H1μμμ

L(μ|X)=f(X|μ)

MLE là một cách hợp lệ để tìm ước tính điểm cho , nhưng nó không cho bạn biết gì về xác suất quan sát với dữ liệu của bạn. Những gì bạn đã làm là bạn đã chọn một giá trị duy nhất cho và hỏi về xác suất quan sát dữ liệu của bạn được cung cấp. Như đã được người khác chú ý, . Để tìm chúng tôi sẽ cần tính đến thực tế là chúng tôi đã thử nghiệm với các giá trị ứng cử viên khác nhau cho . Điều này dẫn đến định lý Bayes μ^μμ^μ f(μ|X)f(X|μ)f(μ|X) μμ^f(μ|X)f(X|μ)f(μ|X)μ^

f(μ|X)=f(X|μ)f(μ)f(X|μ)f(μ)dμ

mà lần đầu tiên, xem xét như thế nào có thể là khác nhau của một tiên nghiệm (điều này có thể thống nhất, những gì dẫn đến kết quả phù hợp với MLE) và thứ hai, bình thường hóa cho thực tế là bạn coi các ứng cử viên khác nhau cho . Hơn nữa, nếu bạn hỏi về theo thuật ngữ xác suất, bạn cần coi đó là một biến ngẫu nhiên, vì vậy đây là một lý do khác để áp dụng phương pháp Bayes.μL Lμ^μ

Kết luận, kiểm tra giả thuyết cho bạn biết nếu có nhiều khả năng hơn , nhưng vì quy trình cần bạn cho rằng là đúng và chọn một giá trị cụ thể cho nó. Để đưa ra một sự tương tự, hãy tưởng tượng rằng bài kiểm tra của bạn là một lời sấm truyền. Nếu bạn hỏi cô ấy, "mặt đất ẩm ướt, có khả năng trời đang mưa không?" , cô ấy sẽ trả lời: "vâng, có thể, trong 83% trường hợp khi trời mưa, mặt đất trở nên ẩm ướt" . Nếu bạn hỏi cô ấy một lần nữa, "có thể ai đó vừa làm đổ nước trên mặt đất?" , cô ấy sẽ trả lời "chắc chắn, cũng có thể, trong 100% trường hợp khi ai đó làm đổ nước trên mặt đất, nó trở nên ẩm ướt"H1H0H0, v.v ... Nếu bạn hỏi cô ấy về một số số, cô ấy sẽ đưa chúng cho bạn, nhưng những con số đó sẽ không thể so sánh được . Vấn đề là bài kiểm tra giả thuyết / nhà tiên tri hoạt động theo một khung, trong đó cô ấy chỉ có thể đưa ra câu trả lời kết luận cho các câu hỏi hỏi liệu dữ liệu có phù hợp với một số giả thuyết không, theo cách khác, vì bạn không xem xét các giả thuyết khác.


2

Hãy làm theo một ví dụ đơn giản.

Giả thuyết khống của tôi là dữ liệu của tôi tuân theo phân phối bình thường. Giả thuyết thay thế là phân phối cho dữ liệu của tôi không bình thường.

Tôi vẽ hai mẫu ngẫu nhiên từ một phân phối đồng đều trên [0,1]. Tôi không thể làm gì nhiều chỉ với hai mẫu, do đó tôi sẽ không thể bác bỏ giả thuyết khống của mình.

Điều đó có nghĩa là tôi có thể kết luận dữ liệu của mình theo phân phối bình thường? Không, đó là một bản phân phối thống nhất !!

Vấn đề là tôi đã đưa ra giả định về tính quy tắc trong giả thuyết khống của mình. Vì vậy, tôi không thể kết luận giả định của mình là đúng vì tôi không thể từ chối nó.


3
Tôi không nghĩ rằng một nghiên cứu với 2 mẫu đủ điều kiện là một "nghiên cứu". Ngay sau khi chúng tôi rút ra một số điểm dữ liệu hợp lý, ví dụ này không hoạt động. Nếu chúng ta vẽ 1000 điểm dữ liệu và chúng trông giống như một phân phối thống nhất, chúng ta có bằng chứng chống lại giả thuyết không có giá trị. Nếu chúng ta vẽ 1000 điểm dữ liệu và chúng trông giống như một phân phối bình thường, chúng ta có bằng chứng cho giả thuyết không có giá trị.
Atte Juvonen

1
@AtteJuvonen Câu trả lời của tôi không phải là một nỗ lực để xác định nghiên cứu được cho là gì. Tôi chỉ đơn giản là cố gắng đưa ra một ví dụ đơn giản để minh họa việc thiếu sức mạnh thống kê cho câu hỏi. Chúng ta đều biết 2 mẫu là xấu.
SmallChess

4
Đúng. Tôi chỉ nói ví dụ của bạn minh họa vấn đề rút ra kết luận từ 2 mẫu. Nó không minh họa vấn đề rút ra bằng chứng cho giả thuyết null.
Atte Juvonen

2

Từ chối yêu cầu nghiên cứu của bạn có đủ sức mạnh thống kê . Nếu bạn có thể từ chối , bạn có thể nói rằng bạn đã thu thập đủ dữ liệu để đưa ra kết luận.H 0H0H0

H0H0H0


H0H0H0

0

Không, nó không phải là bằng chứng trừ khi bạn có bằng chứng cho thấy đó là bằng chứng. Tôi không cố tỏ ra dễ thương, đúng nghĩa đen. Bạn chỉ có xác suất nhìn thấy dữ liệu như vậy với giả định null là đúng. Đó là TẤT CẢ bạn nhận được từ giá trị p (nếu vậy, vì giá trị p dựa trên các giả định).

Bạn có thể trình bày một nghiên cứu cho thấy rằng đối với các nghiên cứu "thất bại" để ủng hộ giả thuyết null, phần lớn các giả thuyết null hóa ra là đúng? Nếu bạn có thể tìm thấy nghiên cứu THAT, thì việc bạn không thể bác bỏ các giả thuyết null ít nhất phản ánh khả năng khái quát RẤT RẤT rằng null là đúng. Tôi cá là bạn không có nghiên cứu đó. Vì bạn không có bằng chứng liên quan đến các giả thuyết null là đúng dựa trên giá trị p, bạn chỉ cần bỏ đi tay không.

Bạn đã bắt đầu bằng cách giả sử null của bạn là đúng để lấy giá trị p đó, vì vậy giá trị p có thể cho bạn biết không có gì về null, chỉ về dữ liệu. Nghĩ về điều đó. Đó là một suy luận một chiều - thời kỳ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.