Sự khác biệt giữa khoảng tin cậy và kiểm tra giả thuyết là gì?


28

Tôi đã đọc về những tranh cãi liên quan đến thử nghiệm giả thuyết với một số nhà bình luận cho rằng không nên sử dụng thử nghiệm giả thuyết. Một số nhà bình luận cho rằng nên sử dụng khoảng tin cậy .

  • Sự khác biệt giữa khoảng tin cậy và kiểm tra giả thuyết là gì? Giải thích với tài liệu tham khảo và ví dụ sẽ được đánh giá cao.

5
Tôi nghĩ rằng bạn muốn hỏi tại sao báo cáo kết quả kiểm tra giả thuyết bằng cách hiển thị khoảng tin cậy sẽ tốt hơn là chỉ nói điều gì đó được xác nhận hoặc từ chối ở mức giá trị p.

3
Bạn nên xem xét việc kiểm tra một số câu hỏi khác của bạn như đã trả lời.
Andy W

Câu trả lời:


19

Bạn có thể sử dụng khoảng tin cậy (CI) để kiểm tra giả thuyết. Trong trường hợp điển hình, nếu CI cho hiệu ứng không kéo dài 0 thì bạn có thể từ chối giả thuyết null. Nhưng một CI có thể được sử dụng để biết thêm, trong khi báo cáo cho dù nó đã được thông qua là giới hạn về tính hữu ích của một bài kiểm tra.

Ví dụ, lý do bạn nên sử dụng CI thay vì chỉ kiểm tra t là vì sau đó bạn có thể làm nhiều hơn là chỉ kiểm tra các giả thuyết. Bạn có thể đưa ra tuyên bố về phạm vi hiệu ứng mà bạn tin là có thể xảy ra (những hiệu ứng trong CI). Bạn không thể làm điều đó chỉ với một bài kiểm tra t. Bạn cũng có thể sử dụng nó để đưa ra tuyên bố về null, điều mà bạn không thể làm với bài kiểm tra t. Nếu kiểm tra t không từ chối null thì bạn chỉ cần nói rằng bạn không thể từ chối null, điều đó không nói nhiều. Nhưng nếu bạn có khoảng tin cậy hẹp quanh null thì bạn có thể đề xuất rằng null hoặc giá trị gần với nó, có thể là giá trị thực và cho thấy hiệu quả của điều trị hoặc biến độc lập là quá nhỏ để có ý nghĩa ( hoặc rằng thí nghiệm của bạn không '

Đã thêm sau: Tôi thực sự nên nói rằng, trong khi bạn có thể sử dụng CI như một bài kiểm tra thì nó không phải là một bài kiểm tra. Đó là ước tính của một phạm vi mà bạn nghĩ rằng các giá trị tham số nằm. Bạn có thể thực hiện bài kiểm tra như suy luận nhưng bạn tốt hơn hết là không bao giờ nói về nó theo cách đó.

Cái nào tốt hơn?

A) Hiệu ứng là 0,6, t (29) = 2,8, p <0,05. Hiệu ứng có ý nghĩa thống kê này là ... (một số cuộc thảo luận nảy sinh về ý nghĩa thống kê này mà không đề cập đến hoặc thậm chí khả năng mạnh mẽ để thảo luận về ý nghĩa thực tế của tầm quan trọng của phát hiện ... trong khuôn khổ Neyman-Pearson về độ lớn của tp Giá trị khá vô nghĩa và tất cả những gì bạn có thể thảo luận là liệu hiệu ứng có hiện diện hay không được tìm thấy hiện diện. Bạn không bao giờ thực sự có thể nói về việc không thực sự có hiệu ứng dựa trên thử nghiệm.)

hoặc là

B) Sử dụng khoảng tin cậy 95%, tôi ước tính hiệu ứng nằm trong khoảng 0,2 đến 1,0. (một số cuộc thảo luận diễn ra khi nói về tác động thực sự của lợi ích, liệu các giá trị hợp lý của nó có phải là ý nghĩa cụ thể và bất kỳ việc sử dụng từ nào có ý nghĩa chính xác cho ý nghĩa của nó hay không. Ngoài ra, độ rộng của CI có thể trực tiếp đến một cuộc thảo luận về việc liệu đây là một phát hiện mạnh mẽ hay liệu bạn chỉ có thể đi đến một kết luận dự kiến ​​hơn)

Nếu bạn đã tham gia một lớp thống kê cơ bản, ban đầu bạn có thể bị hút về A. Và có thể có một số trường hợp đó là cách tốt hơn để báo cáo kết quả. Nhưng đối với hầu hết các công việc B là xa và vượt trội. Một ước tính phạm vi không phải là một bài kiểm tra.


Một bổ sung cho ý kiến ​​của @john: Đầu tiên, đôi khi câu hỏi chính là liệu CI có kéo dài 1, không phải 0 (ví dụ: hồi quy logistic).
Peter Flom - Tái lập Monica

Các bạn, nó là 1 hay là 0? (Điều này có vẻ rất rõ ràng đối với tôi, vì vậy tôi đoán, tôi cần tìm hiểu giá trị chính xác để tìm ra!) @John
Adhesh Josh

Mối quan hệ giữa 95% CI và giả thuyết thử nghiệm hai đuôi với alfa = 0,05 là gì? Có giống nhau không? Nếu không thì thế nào?
chỉ số tình yêu

chỉ số tình yêu, khi được sử dụng giống nhau, chúng là như nhau.
Giăng

Adhesh Josh, giả thuyết null có thể là bất kỳ giá trị cố định nào được chỉ định trước. Đó là một tính năng khác của CI so với NHST thẳng. Nó rất dễ sử dụng khi bạn muốn kiểm tra giá trị giả định khác 0.
John

7

Có một sự tương đương giữa các bài kiểm tra giả thuyết và khoảng tin cậy. (xem ví dụ: http://en.wikipedia.org/wiki/Confidence_interval#Statistic_hypothesis_testing ) Tôi sẽ đưa ra một ví dụ rất cụ thể. Giả sử chúng ta có mẫu x1,x2,,xn từ một phân phối chuẩn với trung bình μ và phương sai 1, mà chúng tôi sẽ viết như N(μ,1) . Giả sử chúng ta nghĩ rằng μ=m , và chúng tôi muốn kiểm tra null-giả thuyết H0:μ=m , ở mức0.05.Vì vậy, chúng ta thực hiện một thống kê kiểm tra, mà trong trường hợp này, chúng tôi sẽ thực hiện để trở thành mẫu trung bình:v=(x1+x2++xn)/n . Bây giờ giả sửA(m) là "vùng chấp nhận" chov cho thử nghiệm này. Điều đó có nghĩa rằngA(m) là tập hợp các giá trị có thể củav mà null-giả thuyếtμ=mđược chấp nhận ở mức 0,05 (Tôi sử dụng "được chấp nhận" như một cách viết tắt cho "không bị từ chối" - Tôi không cho rằng bạn sẽ kết luận giả thuyết khống là đúng.). Trong ví dụ này, chúng ta có thể xem phân phối chuẩn N(m,1) và chọn bất kỳ tập hợp nào có xác suất ít nhất 0,95 theo phân phối này. Bây giờ, vùng tin cậy 95% cho μ là tập hợp tất cả mv nằm trong A(m) . Nói cách khác, nó là tập hợp của tất cả m mà giả thuyết null sẽ được chấp nhận cho v được quan sátv . Đó là lý do tại sao John nói "Nếu CI cho hiệu ứng không kéo dài0 thì bạn có thể bác bỏ giả thuyết khống. "(John đang đề cập đến trường hợp thử nghiệmμ=0 )

vμmμ=m0.05.mμ=m0.0210.98


Vui lòng đọc phần này vì giá trị p không thể được hiểu là mức kiểm tra nhỏ nhất để từ chối null. "Người ta đã chứng minh rằng việc diễn giải các giá trị p trong các thử nghiệm đơn (hoặc đang diễn ra) không được phép trong bối cảnh thử nghiệm giả thuyết Neyman tựa Pearson. Việc tính toán giá trị ap chỉ phụ thuộc vào sự thật của giả thuyết null. Giá trị p không đo được. số lượng bằng chứng ủng hộ HA, nó là thước đo bằng chứng quy nạp chống lại H0. " 'Nguồn: ftp.stat.duke.edu/WorkingPapers/03-26.pdf
sree22

@ sree22 bạn có thể mở rộng về điều này, hoặc đề nghị viết lại? Tôi đã cố gắng đưa ra một định nghĩa về giá trị p trong bối cảnh này, không phải là một diễn giải.
DavidR

3

"Học sinh" lập luận cho các khoảng tin cậy với lý do họ có thể chỉ ra những hiệu ứng nào quan trọng hơn cũng như có ý nghĩa hơn.

Ví dụ: nếu bạn tìm thấy hai hiệu ứng trong đó lần đầu tiên có khoảng tin cậy cho tác động tài chính của nó từ £ 5 đến £ 6, trong khi lần thứ hai có khoảng tin cậy từ £ 200 đến £ 2800. Cái đầu tiên có ý nghĩa thống kê hơn nhưng cái thứ hai có lẽ quan trọng hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.