Khi nào khoảng tin cậy có ích?


30

Nếu tôi hiểu chính xác, khoảng tin cậy của một tham số là một khoảng được xây dựng bằng phương pháp mang lại các khoảng chứa giá trị thực cho một tỷ lệ mẫu được chỉ định. Vì vậy, "độ tin cậy" là về phương pháp chứ không phải là khoảng thời gian tôi tính toán từ một mẫu cụ thể.

Là một người sử dụng số liệu thống kê, tôi luôn cảm thấy bị lừa bởi điều này vì không gian của tất cả các mẫu là giả thuyết. Tất cả những gì tôi có là một mẫu và tôi muốn biết mẫu đó cho tôi biết gì về một tham số.

Là phán đoán sai? Có cách nào để xem xét khoảng tin cậy, ít nhất là trong một số trường hợp, điều này sẽ có ý nghĩa đối với người sử dụng số liệu thống kê?

[Câu hỏi này xuất phát từ những suy nghĩ thứ hai sau khi loại bỏ khoảng tin cậy trong một câu toán học. Trả lời https://math.stackexchange.com/questions/7564/calculating-a-sample-size-basing-on-a-confidence-level/7572 # 7572 ]

Câu trả lời:


15

Tôi thích nghĩ về các TCTD như một cách để thoát khỏi khuôn khổ Thử nghiệm Giả thuyết (HT), ít nhất là khung quyết định nhị phân theo cách tiếp cận của Neyman , và tuân theo lý thuyết về đo lường theo một cách nào đó. Chính xác hơn, tôi xem chúng gần với độ tin cậy của một ước lượng (ví dụ, sự khác biệt về phương tiện), và ngược lại, HT gần với lý luận suy diễn giả thuyết hơn, với những cạm bẫy của nó (chúng ta không thể chấp nhận giá trị thay thế thường ngẫu nhiên, vv). Tuy nhiên, với cả ước tính khoảng thời gian và HT, chúng ta phải dựa vào các giả định phân phối hầu hết thời gian (ví dụ: phân phối lấy mẫu theo ), cho phép suy luận từ mẫu của chúng ta đến dân số chung hoặc đại diện (ít nhất là trong người thường xuyên tiếp cận).H0

Trong nhiều bối cảnh, các TCTD bổ sung cho HT thông thường và tôi xem chúng như trong hình sau (nó nằm dưới ):H0

văn bản thay thế

nghĩa là, trong khung HT (bên trái), bạn nhìn vào khoảng cách thống kê của bạn từ null, trong khi với các TCTD (phải), bạn đang xem hiệu ứng null "từ thống kê của bạn", theo một nghĩa nào đó.

Ngoài ra, lưu ý rằng đối với một số loại thống kê nhất định, như tỷ lệ chênh lệch, HT thường là vô nghĩa và tốt hơn là xem xét CI liên quan của nó đối xứng và cung cấp thông tin phù hợp hơn về hướng và độ chính xác của hiệp hội, nếu có.


Tại sao bạn nói các bài kiểm tra giả thuyết thường vô nghĩa đối với tỷ lệ cược, nhiều hơn bất kỳ ước tính hiệu ứng nào khác? Thay vào đó, tôi nhấn mạnh rằng khoảng tin cậy hữu ích hơn các lỗi tiêu chuẩn cho tỷ lệ chênh lệch và các ước tính khác với phân phối lấy mẫu không đối xứng trong các mẫu hữu hạn.
vào

@onestop Vâng, tôi đã suy nghĩ một phần về những gì bạn nói về "phân phối lấy mẫu không đối xứng ..." (và có vẻ như tôi không rõ lắm), nhưng thực tế là trong các nghiên cứu dịch tễ học, chúng tôi thường quan tâm nhất đến các TCTD (điều đó là, ước tính của chúng tôi chính xác đến mức nào) so với HT.
chl

+1. Điều này nhắc nhở tôi rằng tôi đã sử dụng các tập lệnh của bạn để tìm hiểu tiệm cận bằng cách nhảy vào và thay đổi mọi thứ xung quanh, thử những thứ khác nhau. Cảm ơn một lần nữa cho điều đó, rất hữu ích để bắt đầu.
ars

@ars Trên thực tế, tôi dường như nhớ rằng hình ảnh này được thực hiện với PStricks. Dù sao, một điểm khởi đầu tốt cho Asymptote là piprime.fr/asymptote .
chl

@chl, điều này có thể lạc đề, nhưng bạn có thể vui lòng cho tôi biết nếu bạn thực hiện các biểu đồ này trong R không?
suncoolsu

7

Một cách tiếp cận khác có liên quan đến Câu hỏi thứ 2 của bạn, "Có cách nào để xem xét khoảng tin cậy, ít nhất là trong một số trường hợp, điều này có ý nghĩa đối với người sử dụng số liệu thống kê không?":

Bạn nên xem suy luận Bayes và các khoảng tin cậy kết quả . Khoảng tin cậy 95% có thể được hiểu là khoảng mà bạn tin rằng có xác suất 95% bao gồm giá trị tham số thực. Cái giá bạn phải trả là bạn cần đặt phân phối xác suất trước cho các giá trị mà bạn tin rằng tham số thực có khả năng sẽ lấy trước khi thu thập dữ liệu. Và ưu tiên của bạn có thể khác với trước của người khác, vì vậy khoảng thời gian đáng tin cậy của bạn cũng có thể khác nhau ngay cả khi bạn sử dụng cùng một dữ liệu.

Đây chỉ là nỗ lực nhanh chóng và thô thiển của tôi để tóm tắt! Một cuốn sách giáo khoa tốt gần đây với trọng tâm thực tế là:

Andrew Gelman, John B. Carlin, Hal S. Stern và Donald B. Rubin. "Phân tích dữ liệu Bayes" (ấn bản 2). Chapman & Hall / CRC, 2003. ISBN 976-1584883883


Cảm ơn. Nhưng những gì về khoảng tin cậy thường xuyên cụ thể? Có bất kỳ trường hợp nào ở tất cả các nơi mà họ sẽ có liên quan?
Jyotirmoy Bhattacharya

Tôi tin rằng việc có các linh mục khác nhau là một vấn đề không (ít nhất là theo quan điểm khách quan của Bayes), nếu điều đó xảy ra là bạn có kiến ​​thức khác nhau về tình huống hiện tại. Chúng tôi có ý định xem các linh mục như một cách truyền thông tin tiên nghiệm của chúng tôi. Tôi biết rằng nó không đơn giản ...
teucer

@Jyotirmoy Giới thiệu về cách tiếp cận bayes so với thường xuyên, các điểm thú vị đã được thực hiện tại đây: stats.stackexchange.com/questions/1611/ Kẻ
chl

6

Tôi nghĩ tiền đề của câu hỏi này là thiếu sót bởi vì nó phủ nhận sự phân biệt giữa không chắc chắnđược biết đến .

Mô tả một đồng xu lật cung cấp một sự tương tự tốt. Trước khi đồng xu được lật, kết quả là không chắc chắn; sau đó, nó không còn là "giả thuyết". Khó hiểu này fait accompli với tình hình thực tế, chúng tôi muốn tìm hiểu (hành vi của các đồng xu, hoặc quyết định mà phải được thực hiện như một kết quả của việc kết quả của nó) về cơ bản phủ nhận vai trò cho xác suất trong việc tìm hiểu thế giới.

Sự tương phản này được ném trong cứu trợ sắc nét trong một lĩnh vực thử nghiệm hoặc quy định. Trong những trường hợp như vậy, nhà khoa học hoặc cơ quan quản lý biết rằng họ sẽ phải đối mặt với các tình huống mà kết quả của họ, bất cứ lúc nào, vẫn chưa được biết, nhưng họ phải đưa ra các quyết định quan trọng như cách thiết kế thí nghiệm hoặc thiết lập các tiêu chí để sử dụng trong việc xác định tuân thủ các quy định (để thử nghiệm thuốc, an toàn tại nơi làm việc, tiêu chuẩn môi trường, v.v.). Những người này và các tổ chức mà họ làm việc cần các phương pháp và kiến ​​thức về các đặc điểm xác suất của các phương pháp đó để phát triển các chiến lược tối ưu và phòng thủ, chẳng hạn như thiết kế thử nghiệm tốt và quy trình ra quyết định công bằng ít nhất có thể.

Khoảng tin cậy, mặc dù biện minh nghèo nàn kinh điển của họ, phù hợp với khuôn khổ lý thuyết quyết định này. Khi một phương pháp xây dựng một khoảng ngẫu nhiên có sự kết hợp của các đặc tính tốt, chẳng hạn như đảm bảo độ bao phủ dự kiến ​​tối thiểu của khoảng đó và giảm thiểu độ dài dự kiến ​​của khoảng - cả hai đều thuộc tính tiên nghiệm , không phải thuộc tính sau - một sự nghiệp lâu dài của việc sử dụng phương pháp đó, chúng tôi có thể giảm thiểu chi phí liên quan đến các hành động được chỉ định bởi phương pháp đó.


Cho một ví dụ về việc sử dụng khoảng tin cậy để đưa ra quyết định. Hoặc, tốt hơn nữa, so sánh hai khoảng tin cậy và cách bạn sẽ đưa ra các quyết định khác nhau với từng người, trong khi vẫn hoàn toàn tuân thủ trong khuôn khổ thường xuyên.
BrainPermafrost

@Brain Bất kỳ sách giáo khoa thống kê giới thiệu sẽ cung cấp các ví dụ như vậy. Một trong số đó là thường xuyên không thường xuyên là Freedman, Pisani, và Purves, Statistics (bất kỳ phiên bản nào).
whuber

6

Bạn đã đúng khi nói rằng khoảng tin cậy 95% là những kết quả của việc sử dụng phương pháp hoạt động trong 95% trường hợp, thay vì bất kỳ khoảng riêng lẻ nào có khả năng chứa 95% giá trị mong đợi.

"Cơ sở logic và giải thích các giới hạn niềm tin, ngay cả bây giờ, là một vấn đề gây tranh cãi." {David Colquhoun, 1971, Các bài giảng về Thống kê sinh học}

Câu trích dẫn đó được lấy từ một cuốn sách giáo khoa thống kê được xuất bản năm 1971, nhưng tôi cho rằng nó vẫn đúng trong năm 2010. Cuộc tranh cãi có lẽ là cực đoan nhất trong trường hợp khoảng tin cậy đối với tỷ lệ nhị thức. Có nhiều phương pháp cạnh tranh để tính các khoảng tin cậy đó, nhưng chúng đều không chính xác theo một hoặc nhiều giác quan và ngay cả phương pháp thực hiện tồi tệ nhất cũng có sự đề xuất giữa các tác giả sách giáo khoa. Ngay cả những khoảng thời gian được gọi là "chính xác" cũng không mang lại các đặc tính mong đợi của khoảng tin cậy.

Trong một bài báo viết cho các bác sĩ phẫu thuật (được biết đến rộng rãi vì họ quan tâm đến thống kê!), John Ludbrook và tôi đã lập luận về việc sử dụng các khoảng tin cậy thường xuyên được tính bằng cách sử dụng một thống nhất Bayes trước vì các khoảng đó có tính chất thường xuyên tốt như bất kỳ phương pháp nào khác (trung bình độ che phủ chính xác 95% so với tất cả các tỷ lệ thực), nhưng quan trọng là độ che phủ tốt hơn nhiều so với tất cả các tỷ lệ quan sát được (độ che phủ chính xác 95%). Bài báo, vì đối tượng mục tiêu của nó, không chi tiết khủng khiếp và vì vậy nó có thể không thuyết phục được tất cả các nhà thống kê, nhưng tôi đang làm việc trên một bài báo tiếp theo với đầy đủ các kết quả và biện minh.

Đây là một trường hợp trong đó phương pháp Bayes có các thuộc tính thường xuyên tốt như cách tiếp cận thường xuyên, một điều xảy ra khá thường xuyên. Giả định về đồng phục trước không có vấn đề gì vì sự phân bố đồng đều về tỷ lệ dân số được xây dựng trong mọi tính toán của phạm vi bảo hiểm thường xuyên mà tôi gặp phải.

Bạn hỏi: "Có cách nào để xem xét khoảng tin cậy, ít nhất là trong một số trường hợp, điều này sẽ có ý nghĩa đối với người dùng thống kê không?" Sau đó, câu trả lời của tôi là trong các khoảng tin cậy nhị thức, người ta có thể nhận được các khoảng có chứa tỷ lệ dân số chính xác 95% thời gian cho tất cả các tỷ lệ quan sát được. Đó là một có. Tuy nhiên, việc sử dụng thông thường các khoảng tin cậy sẽ bảo hiểm cho tất cả các tỷ lệ dân số và cho câu trả lời là "Không!"

Độ dài của các câu trả lời cho câu hỏi của bạn và các câu trả lời khác nhau cho thấy khoảng tin cậy bị hiểu sai rộng rãi. Nếu chúng tôi thay đổi mục tiêu của chúng tôi từ phạm vi bảo hiểm cho tất cả các giá trị tham số thực sang phạm vi bảo hiểm của giá trị tham số thực cho tất cả các giá trị mẫu, điều đó có thể trở nên dễ dàng hơn vì các khoảng thời gian sau đó sẽ được định hình có liên quan trực tiếp đến các giá trị được quan sát thay vì hiệu suất của phương pháp mỗi se.


5

Đây là một cuộc thảo luận tuyệt vời. Tôi cảm thấy rằng khoảng thời gian đáng tin cậy của Bayes và khoảng thời gian hỗ trợ khả năng là cách để đi, cũng như xác suất sau của Bayes về các sự kiện quan tâm (ví dụ, một loại thuốc có hiệu quả). Nhưng thay thế giá trị P bằng khoảng tin cậy là một lợi ích lớn. Hầu như mọi vấn đề của các tạp chí y khoa tốt nhất như NEJM và JAMA đều có một bài báo với vấn đề "không có bằng chứng không phải là bằng chứng vắng mặt" trong phần tóm tắt của họ. Việc sử dụng khoảng tin cậy sẽ phần lớn ngăn chặn những sai lầm ngớ ngẩn đó. Một văn bản nhỏ tuyệt vời là http://www.amazon.com/Statistic-Confidence-Inter đạn-Statistic-Guiances/dp/0727913751


3

Để giải quyết câu hỏi của bạn trực tiếp: Giả sử rằng bạn đang dự tính việc sử dụng máy để đổ đầy hộp ngũ cốc với một lượng ngũ cốc nhất định. Rõ ràng, bạn không muốn lấp đầy / lấp đầy hộp. Bạn muốn đánh giá độ tin cậy của máy. Bạn thực hiện một loạt các thử nghiệm như vậy: (a) Sử dụng máy để điền vào hộp và (b) Đo lượng ngũ cốc được điền vào hộp.

Sử dụng dữ liệu thu thập được, bạn xây dựng khoảng tin cậy cho lượng ngũ cốc mà máy có khả năng điền vào hộp. Khoảng tin cậy này cho chúng ta biết rằng khoảng thời gian chúng ta thu được có xác suất 95% rằng nó sẽ chứa lượng ngũ cốc thực sự mà máy sẽ bỏ vào hộp. Như bạn nói, việc giải thích khoảng tin cậy phụ thuộc vào các mẫu giả định, không nhìn thấy được tạo ra bởi phương pháp đang xem xét. Nhưng, đây chính xác là những gì chúng ta muốn trong bối cảnh của chúng tôi. Trong bối cảnh trên, chúng tôi sẽ sử dụng máy nhiều lần để điền vào hộp và do đó chúng tôi quan tâm đến việc nhận ra giả thuyết, chưa từng thấy về lượng ngũ cốc mà máy lấp đầy trong hộp.

Để đi trừu tượng từ bối cảnh trên: khoảng tin cậy cho chúng ta một sự bảo đảm rằng nếu chúng ta sử dụng phương pháp điều tra (trong phương pháp ví dụ trên = máy) lặp đi lặp lại có một xác suất 95%, khoảng tin cậy sẽ có dạng true .


2
@Srikant. Không! Đây là cách các TCTD cổ điển cắn. Giả sử đơn giản là lượng ngũ cốc chứa trong một hộp là bình thường với trung bình và phương sai . Khoảng tin cậy của dựa trên phân phối mẫu của nó là khác nhau. Một CI cụ thể có thể bị tắt do lỗi lấy mẫu và sau đó nó sẽ không liên quan đến cách thức hoạt động của máy. Nếu bạn liên tục lấy mẫu và liên tục hình thành các TCTD thì 95% trong số đó sẽ đúng, nhưng đó không phải là sự an ủi. σ 2 μμσ2μ
Jyotirmoy Bhattacharya

1
@Jyotirmoy Tất nhiên, một CI cụ thể có thể bị loại bỏ. Nói cách khác, có 5% khả năng CI không chứa giá trị thực. Tuy nhiên, cách giải thích tôi đưa ra phù hợp với cách thức thực hiện các TCTD. Chúng tôi tưởng tượng sử dụng phương pháp nhiều lần và xây dựng CI sao cho xác suất mà CI quan sát được chứa giá trị thực là 0,95. Lưu ý rằng câu trả lời của tôi không nói gì về xác suất giá trị thực sự nằm ở đâu vì đó là một tuyên bố chỉ có thể được thực hiện với các khoảng tin cậy và không phải là khoảng tin cậy.

1
@Jyotirmoy Lower / Upper giới hạn cho một CI% của một trung bình quan sát được xây dựng theo , nơi phân phối mẫu của trung bình (hoặc một sự khác biệt của phương tiện) là một trong những bạn giả định tùy thuộc vào mẫu của bạn ( hoặc phân phối ). Tôi thấy câu trả lời của Srikant là đúng, và cách giải thích của anh ta dường như không vượt ra ngoài thí nghiệm được đóng khung. TCTD là các biến ngẫu nhiên. H 0 t z(100α)H0tz
chl

@Srikant. Có lẽ tôi đã hiểu nhầm "phương thức = máy" trong câu trả lời. Tôi nghĩ rằng bạn đang nói rằng 95% tất cả các hộp ra khỏi dây chuyền lắp ráp sẽ có trọng số trong khoảng tin cậy 95% có được từ một mẫu cụ thể của các hộp.
Jyotirmoy Bhattacharya
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.