Tại sao Khoảng tin cậy (CI) 95% không ngụ ý 95% cơ hội chứa giá trị trung bình?


228

Dường như thông qua các câu hỏi liên quan khác nhau ở đây, có sự đồng thuận rằng phần "95%" của cái mà chúng ta gọi là "khoảng tin cậy 95%" đề cập đến thực tế là nếu chúng ta sao chép chính xác các quy trình lấy mẫu và tính toán CI của chúng ta nhiều lần , 95% các TCTD được tính toán như vậy sẽ chứa trung bình dân số. Nó cũng có vẻ là sự đồng thuận rằng định nghĩa này khôngcho phép một người kết luận từ một CI 95% duy nhất rằng có 95% khả năng giá trị trung bình nằm ở đâu đó trong CI. Tuy nhiên, tôi không hiểu làm thế nào trước đây không bao hàm ý nghĩa sau này, vì đã tưởng tượng nhiều TCTD 95% trong số đó có nghĩa là dân số, không nên là sự không chắc chắn của chúng tôi (liên quan đến việc CI thực sự được tính toán có chứa dân số không có nghĩa là hay không) buộc chúng ta sử dụng tỷ lệ cơ sở của các trường hợp tưởng tượng (95%) như ước tính của chúng tôi về xác suất mà trường hợp thực tế của chúng ta có chứa CI?

Tôi đã thấy các bài đăng tranh luận dọc theo dòng "CI thực sự được tính toán có chứa trung bình dân số hoặc không, vì vậy xác suất của nó là 1 hoặc 0", nhưng điều này dường như ngụ ý một định nghĩa kỳ lạ về xác suất phụ thuộc trên các trạng thái không xác định (ví dụ: một người bạn lật đồng xu công bằng, che giấu kết quả và tôi không được phép nói rằng có 50% khả năng là nó đứng đầu).

Chắc chắn là tôi sai, nhưng tôi không thấy logic của mình bị sai lệch ở đâu ...


4
Theo "cơ hội", bạn có nghĩa là "xác suất" theo nghĩa kỹ thuật thường xuyên, hay theo nghĩa Bayesian về tính hợp lý chủ quan? Theo nghĩa thông thường, chỉ các sự kiện của các thí nghiệm ngẫu nhiên có xác suất. Nhìn vào ba số đã cho (cố định) (giá trị trung bình thực, giới hạn CI được tính) để xác định thứ tự của chúng (giá trị trung bình thực có trong CI?) Không phải là một thử nghiệm ngẫu nhiên. Đây cũng là lý do tại sao phần xác suất của "CI thực sự được tính toán có chứa trung bình dân số hoặc không, vì vậy xác suất của nó là 1 hoặc 0" cũng sai. Một mô hình xác suất thường xuyên chỉ không áp dụng trong trường hợp đó.
caracal

11
Nó phụ thuộc vào cách bạn đối xử với ý nghĩa lý thuyết. Nếu nó là biến ngẫu nhiên thì bạn có thể nói về xác suất nó rơi vào một khoảng nào đó. Nếu nó là hằng số, bạn không thể. Đó là lời giải thích đơn giản nhất, đã khép lại vấn đề này với cá nhân tôi.
mpiktas

2
Tình cờ, tôi bắt gặp bài nói chuyện này, từ Thaddeus Tarpey: Tất cả các mô hình đều đúng, hầu hết đều vô dụng . Ông đã thảo luận các vấn đề về xác suất mà một khoảng tin cậy 95% chứa (p. 81 ff.)? μ
chl

3
@Nesp: Tôi không nghĩ có bất kỳ vấn đề nào với tuyên bố "Xác suất của nó là 0 hoặc 1" liên quan đến xác suất (sau) rằng CI chứa tham số (cố định). (Điều này thậm chí không thực sự dựa vào bất kỳ sự giải thích xác suất thường xuyên nào!). Nó cũng không dựa vào "các trạng thái chưa biết". Một tuyên bố như vậy đề cập chính xác đến tình huống trong đó một người được trao một CI dựa trên một mẫu cụ thể. Đây là một bài tập toán học đơn giản để chỉ ra rằng bất kỳ xác suất nào như vậy là tầm thường, tức là, lấy các giá trị trong . {0,1}
Đức hồng y

3
@MikeLawrence sau ba năm, bạn có hài lòng với định nghĩa về khoảng tin cậy 95% như sau: "nếu chúng tôi liên tục lấy mẫu từ dân số và tính khoảng tin cậy 95% sau mỗi mẫu, 95% khoảng tin cậy của chúng tôi sẽ chứa giá trị trung bình ". Giống như bạn vào năm 2012, tôi đang vật lộn để xem điều này không ngụ ý rằng khoảng tin cậy 95% có xác suất 95% chứa giá trị trung bình. Tôi sẽ quan tâm để xem sự hiểu biết của bạn về khoảng tin cậy đã tiến triển như thế nào kể từ khi bạn hỏi câu hỏi này.
luciano

Câu trả lời:


107

Một phần của vấn đề là định nghĩa xác suất thường xuyên không cho phép xác suất không cần thiết được áp dụng cho kết quả của một thí nghiệm cụ thể, nhưng chỉ đối với một số thí nghiệm giả tưởng mà thí nghiệm cụ thể này có thể được coi là một mẫu. Định nghĩa của CI là khó hiểu vì đây là một tuyên bố về dân số giả tưởng (thường) này, thay vì về dữ liệu cụ thể được thu thập trong ví dụ. Vì vậy, một phần của vấn đề là một trong những định nghĩa về xác suất: Ý tưởng về giá trị thực nằm trong một khoảng cụ thể với xác suất 95% không phù hợp với khung thường xuyên.

Một khía cạnh khác của vấn đề là việc tính toán độ tin cậy thường xuyên không sử dụng tất cả các thông tin có trong mẫu cụ thể liên quan đến ràng buộc giá trị thực của thống kê. Câu hỏi của tôi "Có bất kỳ ví dụ nào mà các khoảng tin cậy Bayes rõ ràng là kém hơn các khoảng tin cậy thường xuyên"thảo luận về một bài báo của Edwin Jaynes trong đó có một số ví dụ thực sự tốt thực sự làm nổi bật sự khác biệt giữa khoảng tin cậy và khoảng tin cậy. Một điều đặc biệt liên quan đến cuộc thảo luận này là Ví dụ 5, thảo luận về sự khác biệt giữa khoảng tin cậy và khoảng tin cậy để ước tính tham số của phân phối hàm mũ bị cắt ngắn (đối với vấn đề trong kiểm soát chất lượng công nghiệp). Trong ví dụ mà ông đưa ra, có đủ thông tin trong mẫu để chắc chắn rằng giá trị thực của tham số không nằm trong khoảng tin cậy được xây dựng đúng 90%!

Điều này có vẻ gây sốc cho một số người, nhưng lý do cho kết quả này là khoảng tin cậy và khoảng tin cậy là câu trả lời cho hai câu hỏi khác nhau, từ hai cách hiểu khác nhau về xác suất.

Khoảng tin cậy là câu trả lời cho yêu cầu: "Hãy cho tôi một khoảng thời gian sẽ đóng khung giá trị thực của tham số trong % số trường hợp của một thử nghiệm được lặp lại nhiều lần." Khoảng tin cậy là một câu trả lời cho yêu cầu: "Hãy cho tôi một khoảng đánh dấu giá trị thực với xác suất p được đưa ra mẫu cụ thể mà tôi thực sự quan sát được. " Để có thể trả lời yêu cầu sau, trước tiên chúng ta phải chấp nhận (a ) một khái niệm mới về quy trình tạo dữ liệu hoặc (b) một khái niệm khác về định nghĩa của chính xác suất. 100pp

Lý do chính mà bất kỳ khoảng tin cậy 95% cụ thể nào không ngụ ý 95% cơ hội chứa giá trị trung bình là vì khoảng tin cậy là một câu trả lời cho một câu hỏi khác nhau, vì vậy đây chỉ là câu trả lời đúng khi câu trả lời cho hai câu hỏi xảy ra với có cùng một giải pháp số.

Trong ngắn hạn, đáng tin cậy và khoảng tin cậy trả lời các câu hỏi khác nhau từ các quan điểm khác nhau; cả hai đều hữu ích, nhưng bạn cần chọn khoảng thời gian phù hợp cho câu hỏi bạn thực sự muốn hỏi. Nếu bạn muốn một khoảng chấp nhận giải thích xác suất 95% (sau) có chứa giá trị thực, thì hãy chọn một khoảng đáng tin cậy (và, với nó, khái niệm xác suất của người tham dự), chứ không phải là khoảng tin cậy. Điều bạn không nên làm là áp dụng một định nghĩa khác về xác suất trong diễn giải so với định nghĩa được sử dụng trong phân tích.

Cảm ơn @cardinal vì những sàng lọc của anh ấy!

Dưới đây là một ví dụ cụ thể, từ cuốn sách xuất sắc "Lý thuyết thông tin, suy luận và thuật toán học tập" của David MaKay (trang 464):

Hãy để cho tham số của lãi suất được và các dữ liệu D , một cặp điểm x 1x 2 rút ra một cách độc lập từ sự phân bố như sau:θDx1x2

p(x|θ)={1/2x=θ,1/2x=θ+1,0otherwise

Nếu 39 , sau đó chúng ta sẽ mong đợi để xem các tập hợp dữ liệu ( 39 , 39 ) , ( 39 , 40 ) , ( 40 , 39 )( 40 , 40 ) tất cả với xác suất bằng 1 / 4 . Xem xét khoảng tin cậyθ39(39,39)(39,40)(40,39)(40,40)1/4

.[θmin(D),θmax(D)]=[min(x1,x2),max(x1,x2)]

Rõ ràng đây là khoảng tin cậy 75% hợp lệ vì nếu bạn lấy mẫu lại dữ liệu, , nhiều lần thì khoảng tin cậy được xây dựng theo cách này sẽ chứa giá trị thực 75% thời gian.D=(x1,x2)

Bây giờ hãy xem xét dữ liệu . Trong trường hợp này, khoảng tin cậy 75% thường xuyên sẽ là [ 29 , 29 ] . Tuy nhiên, giả định mô hình của quá trình tạo ra là chính xác, θ có thể là 28 hoặc 29 trong trường hợp này, và chúng tôi không có lý do gì để cho rằng 29 có nhiều khả năng hơn 28, vì vậy xác suất hậu nghiệm là p ( θ = 28 | D ) = p ( θ = 29 | D ) = 1 / 2D=(29,29)[29,29]θp(θ=28|D)=p(θ=29|D)=1/2. Vì vậy, trong trường hợp này khoảng tin cậy frequentist rõ ràng không phải là một khoảng thời gian đáng tin cậy 75% như chỉ có một xác suất 50% rằng nó chứa giá trị đích thực của , cho những gì chúng ta có thể suy ra khoảng θ từ mẫu đặc biệt này .θθ

Vâng, đây là một ví dụ giả định, nhưng nếu khoảng tin cậy và khoảng tin cậy không khác nhau, thì chúng vẫn giống hệt nhau trong các ví dụ giả định.

Lưu ý sự khác biệt chính là khoảng tin cậy là một tuyên bố về những gì sẽ xảy ra nếu bạn lặp lại thí nghiệm nhiều lần, khoảng tin cậy là một tuyên bố về những gì có thể được suy ra từ mẫu cụ thể này.


8
Khoảng tin cậy là câu trả lời cho câu hỏi "hãy cho tôi một khoảng thời gian sẽ đặt giá trị thực của thống kê với xác suất p nếu thử nghiệm được lặp lại nhiều lần". Khoảng tin cậy là một câu trả lời cho câu hỏi "hãy cho tôi một khoảng đánh dấu giá trị thực với xác suất p". Trước hết, tuyên bố liên quan đến việc giải thích thường xuyên về xác suất để lại điều gì đó mong muốn. Có lẽ, vấn đề nằm ở việc sử dụng xác suất từ trong câu đó. Thứ hai, tôi thấy "định nghĩa" khoảng tin cậy là quá đơn giản ...
hồng y

7
... và hơi sai lệch khi xem xét đặc tính bạn đưa ra cho một CI. Trong một mạch có liên quan, câu kết thúc có cùng một vấn đề: Nếu bạn muốn một khoảng chứa giá trị thực 95% thời gian, sau đó chọn một khoảng tin cậy, không phải là khoảng tin cậy. Việc sử dụng thông tục "chứa giá trị thực 95% thời gian" là một chút không chính xác và để lại ấn tượng sai. Thật vậy, tôi có thể làm cho một luận cứ thuyết phục (Tôi tin) mà từ ngữ như vậy là nhiều điều để trở thành định nghĩa của một CI.
hồng y

11
Yêu cầu : Sẽ rất hữu ích cho người xuống đối với câu trả lời này để bày tỏ ý kiến ​​/ lý do của họ trong các bình luận. Mặc dù câu hỏi này có nhiều khả năng hơn một chút so với hầu hết dẫn đến thảo luận mở rộng, nhưng vẫn hữu ích khi cung cấp phản hồi mang tính xây dựng cho người trả lời; đó là một trong những cách dễ nhất để giúp cải thiện nội dung tổng thể của trang web. Chúc mừng.
Đức hồng y

9
Dikran, vâng, tôi đồng ý. Đó là một phần của những gì tôi đã cố gắng rút ra thêm một chút trong các chỉnh sửa. Một người thường xuyên cực đoan (mà tôi chắc chắn là không ) có thể nói điều đó một cách khiêu khích như sau: "Một CI bảo thủ ở chỗ tôi thiết kế khoảng trước sao cho dù tôi có quan sát dữ liệu cụ thể nào đi chăng nữa, tham số sẽ được ghi lại trong khoảng 95% của thời gian. Một khoảng đáng tin cậy phát sinh từ việc nói 'Rất tiếc, ai đó vừa ném một số dữ liệu vào lòng tôi. Xác suất mà khoảng thời gian tôi xây dựng từ dữ liệu đó chứa tham số thực sự là gì?' "Điều đó hơi bất công trong trường hợp sau .. .
Đức hồng y

2
Dikran, tất cả chúng ta đều đến từ những nền tảng khác nhau và điều đó giúp làm phong phú thêm sự hiểu biết của chúng ta. Liên quan đến xác suất và các khái niệm liên quan, có lẽ nhà tư tưởng xuất sắc nhất mà tôi có niềm vui khi tương tác không có số liệu thống kê chính thức hoặc nền tảng xác suất (toán học); anh ấy là một kỹ sư
hồng y

28

Trong xác suất thống kê thường xuyên là về các sự kiện trong thời gian dài. Họ chỉ không áp dụng cho một sự kiện duy nhất sau khi nó hoàn thành. Và việc chạy thử nghiệm và tính toán CI chỉ là một sự kiện như vậy.

Bạn muốn so sánh nó với xác suất của một đồng tiền ẩn đang đứng đầu nhưng bạn không thể. Bạn có thể liên hệ nó với một cái gì đó rất gần. Nếu trò chơi của bạn có một quy tắc mà bạn phải nêu sau khi "lật" thì khả năng bạn sẽ đúng trong thời gian dài là 50% và đó là tương tự.

Khi bạn chạy thử nghiệm và thu thập dữ liệu của mình thì bạn đã có một cái gì đó tương tự như việc lật đồng tiền thật. Quá trình thí nghiệm cũng giống như quá trình của đồng xu lật ở chỗ nó tạo ra μhoặc nó không giống như đồng xu là đầu hoặc không. Một khi bạn lật đồng xu, cho dù bạn có nhìn thấy nó hay không, không có khả năng đó là đầu, nó là đầu hoặc không. Bây giờ giả sử bạn gọi người đứng đầu. Đó là những gì tính toán CI. Bởi vì bạn không bao giờ có thể tiết lộ đồng xu (sự tương tự của bạn với một thử nghiệm sẽ biến mất). Hoặc bạn đúng hoặc bạn sai, đó là nó. Liệu trạng thái hiện tại của nó có liên quan gì đến xác suất nó sẽ xuất hiện ở lần lật tiếp theo không, hoặc tôi có thể dự đoán nó là gì không? Không. Quá trình mà cái đầu được tạo ra có xác suất 0,5 để tạo ra chúng nhưng điều đó không có nghĩa là cái đầu đã tồn tại có xác suất 0,5. Khi bạn tính toán CI của bạn không có khả năng mà nó chụp μ, nó có hoặc không, bạn đã không lật đồng xu.

OK, tôi nghĩ rằng tôi đã tra tấn đủ rồi. Điểm quan trọng thực sự là sự tương tự của bạn là sai lầm. Bạn không bao giờ có thể tiết lộ đồng tiền; bạn chỉ có thể gọi đầu hoặc đuôi dựa trên các giả định về tiền xu (thí nghiệm). Bạn có thể muốn đặt cược sau đó trên đầu hoặc đuôi của bạn là chính xác nhưng bạn không bao giờ có thể thu thập trên đó. Ngoài ra, đây là một thành phần quan trọng của quy trình CI mà bạn nêu rõ giá trị nhập khẩu trong khoảng. Nếu bạn không thì bạn không có CI (hoặc ít nhất không phải là CI ở% đã nêu).

Có lẽ điều khiến CI khó hiểu là tên của nó. Đó là một loạt các giá trị có hoặc không chứa . Chúng tôi nghĩ rằng chúng chứa μ nhưng khả năng đó là không giống như quá trình đó đã đi vào phát triển nó. Phần 95% của tên CI 95% chỉ là về quá trình. Bạn có thể tính toán một phạm vi mà bạn tin rằng sau đó chứa μ ở một mức độ xác nhưng đó là một tính toán khác nhau và không phải là một CI.μμμ

Nó tốt hơn để nghĩ về% CI tên 95 như một chỉ định một loại đo lường của một loạt các giá trị mà bạn nghĩ plausibly chứa và tách 95% so với tính hợp lý đó. Chúng ta có thể gọi nó là Jennifer CI trong khi CI 99% là CI CI. Điều đó thực sự có thể tốt hơn. Sau đó, sau đó chúng ta có thể nói rằng chúng tôi tin rằng μ có thể sẽ nằm trong khoảng giá trị và không ai có thể gặp khó khăn nói rằng có một xác suất Wendy mà chúng tôi đã bắt μ . Nếu bạn muốn một chỉ định khác, tôi nghĩ có lẽ bạn cũng nên thoải mái thoát khỏi phần "tự tin" của CI (nhưng đó là một khoảng).μμμ


Để công bằng, trả lời này có vẻ ổn, nhưng tôi rất thích xem mô tả chính thức (toán học) về nó. Với chính thức, tôi có nghĩa là chuyển đổi nó thành sự kiện. Tôi sẽ giải thích quan điểm của mình: Tôi nhớ rằng đã rất bối rối với giá trị khi bắt đầu. Ở đâu đó tôi đọc được rằng " giá trị p thực sự tính toán là xác suất của dữ liệu cho rằng giả thuyết null, H 0 , là đúng". Khi tôi liên quan điều này với định lý Bayes, tất cả đều có ý nghĩa đến mức bây giờ tôi có thể giải thích nó cho mọi người (tức là người ta tính p ( D | H 0 ) ). Tuy nhiên, tôi (trớ trêu thay) không tự tin đến thế ...ppH0p(D|H0)
Néstor

μ^P(L1(μ^)<μ<L2(mu^)|D)μP(L1<X¯μ<L2)=ααp(H0|D)p(D|H0)

Đôi khi có thể xóa bình luận có nhược điểm của nó. Tôi không thể theo kịp với những thay đổi nhanh chóng, trong trường hợp này!
Đức hồng y

1
μ

1
@vonjd, tôi không thấy những gì không có ý nghĩa về nó. Rõ ràng là trường hợp đối thủ của bạn có tức giận hay không. Nếu trước đây, xác suất là (tầm thường) 1, và nếu sau 0. Do đó, bạn không thể nói một cách hợp lý xác suất là .198. Điều đó làm cho ý nghĩa hoàn hảo. Trước khi xử lý bàn tay, thật hợp lý để nói về xác suất bị xử lý. Tương tự như vậy, trước khi rút thẻ, thật hợp lý khi nói về xác suất nhận được bộ đồ bạn cần. Sau khi bạn có thẻ, nó chỉ đơn giản là bất cứ thứ gì phù hợp với nó.
gung

22

Các ý tưởng chính thức, rõ ràng về lập luận, suy luận và logic bắt nguồn, trong truyền thống phương Tây, với Aristotle. Aristotle đã viết về những chủ đề này trong một số tác phẩm khác nhau (bao gồm một chủ đề được gọi là Chủ đề ;-)). Tuy nhiên, nguyên tắc đơn lẻ cơ bản nhất là Quy luật không mâu thuẫn , có thể được tìm thấy ở nhiều nơi, bao gồm cả Siêu hình họcquyển IV, chương 3 & 4. Một công thức điển hình là: "... không thể có bất cứ thứ gì cùng một lúc và không thể [theo cùng một nghĩa]" (1006 a 1). Tầm quan trọng của nó được nêu sớm hơn một chút, "... đây tự nhiên là điểm khởi đầu ngay cả đối với tất cả các tiên đề khác" (1005 b 30). Xin lỗi vì tôi đã tẩy lông triết học, nhưng câu hỏi này về bản chất của nó có nội dung triết học không thể đơn giản bị đẩy sang một bên cho thuận tiện.

Hãy xem xét thí nghiệm suy nghĩ này: Alex lật một đồng xu, bắt nó và lật nó lên cẳng tay với bàn tay che mặt hướng lên trên. Bob đang đứng đúng vị trí; anh ta thoáng thấy đồng xu trong tay Alex, và do đó có thể suy ra bên nào đang đối mặt bây giờ. Tuy nhiên, Carlos đã không nhìn thấy đồng tiền - anh ta đã không ở đúng vị trí. Tại thời điểm này, Alex hỏi họ xác suất mà đồng xu hiển thị là gì. Carlos cho rằng xác suất là 0,5, vì đó là tần số dài của các đầu. Bob không đồng ý, anh tự tin khẳng định rằng xác suất không có gì khác ngoài chính xác là 0 .

Bây giờ, ai đúng? Tất nhiên, có thể Bob đã nhìn thấy sai và không chính xác (chúng ta hãy cho rằng anh ta đã không nhìn thấy sai). Tuy nhiên, bạn không thể cho rằng cả hai đều đúng và tuân theo luật không mâu thuẫn. (Tôi cho rằng nếu bạn không tin vào luật không mâu thuẫn, bạn có thể nghĩ rằng cả hai đều đúng hoặc một số công thức khác như vậy.) Bây giờ hãy tưởng tượng một trường hợp tương tự, nhưng nếu không có Bob, thì gợi ý của Carlos có thể đúng hơn (eh?) mà không có Bob xung quanh, vì không ai nhìn thấy đồng tiền? Việc áp dụng luật không mâu thuẫn không hoàn toàn rõ ràng trong trường hợp này, nhưng tôi nghĩ rõ ràng là các phần của tình huống có vẻ quan trọng được giữ liên tục từ trước đến sau. Đã có nhiều nỗ lực để xác định xác suất và trong tương lai có thể vẫn còn nhiều nữa, nhưng một định nghĩa về xác suất như là một chức năng của những người tình cờ đứng xung quanh và nơi họ tình cờ được định vị có rất ít sự hấp dẫn. Ở bất cứ giá nào (đoán bằng cách bạn sử dụng cụm từ "khoảng tin cậy "), chúng tôi đang làm việc theo phương pháp Thường xuyên và trong đó có ai biết trạng thái thực sự của đồng tiền là không liên quan hay không. Nó không phải là một biến ngẫu nhiên - đó là một giá trị nhận ra và nó hiển thị đầu, hoặc nó hiển thị đuôi .

pp=.5p=.95p

Điều quan trọng đối với tôi là lưu ý vào thời điểm này rằng tất cả những điều này là trường hợp trong một quan niệm xác suất thường xuyên. Quan điểm của Bayes không vi phạm luật không mâu thuẫn, nó chỉ đơn giản bắt đầu từ những giả định siêu hình khác nhau về bản chất của thực tế (cụ thể hơn là về xác suất). Những người khác trong CV hiểu rõ hơn về quan điểm của Bayes so với tôi, và có lẽ họ có thể giải thích tại sao các giả định đằng sau câu hỏi của bạn không áp dụng theo cách tiếp cận Bayes, và trên thực tế, có thể có xác suất trung bình 95% nằm trong phạm vi đáng tin cậy 95%khoảng thời gian, trong các điều kiện nhất định bao gồm (trong số những điều kiện khác) mà việc sử dụng trước đó là chính xác (xem nhận xét của @DikranMarsupial bên dưới). Tuy nhiên, tôi nghĩ tất cả sẽ đồng ý, rằng một khi bạn tuyên bố rằng bạn đang làm việc theo phương pháp Thường xuyên, thì không thể xảy ra trường hợp xác suất trung bình thực sự nằm trong bất kỳ CI 95% cụ thể nào là 0,95.


5
Theo cách tiếp cận Bayes, thực tế không có xác suất 95% rằng giá trị thực nằm trong khoảng tin cậy 95%. Sẽ đúng hơn khi nói rằng được phân phối trước cụ thể cho giá trị của thống kê (đại diện cho trạng thái kiến ​​thức ban đầu của chúng tôi) sau đó đã quan sát dữ liệu chúng tôi có phân phối sau đại diện cho trạng thái kiến ​​thức cập nhật, cho chúng ta một khoảng thời gian chúng tôi chắc chắn 95% rằng giá trị thực sự nằm. Điều này sẽ chỉ chính xác nếu trước đó của chúng tôi là chính xác (và các giả định khác như hình thức của khả năng).
Dikran Marsupial

@DikranMarsupial, cảm ơn bạn đã lưu ý. Đó là một chút của một miệng. Tôi đã chỉnh sửa câu trả lời của mình để làm cho nó phù hợp hơn với đề xuất của bạn, nhưng không sao chép nó trong toto . Hãy cho tôi biết nếu chỉnh sửa thêm là phù hợp.
gung

Về cơ bản, cách tiếp cận Bayes được giải thích tốt nhất là một tuyên bố về trạng thái kiến ​​thức của bạn về tham số quan tâm (xem hồng y, tôi đang học; o), nhưng không đảm bảo rằng trạng thái kiến ​​thức là chính xác trừ khi tất cả các giả định đều đúng . Tôi rất thích các cuộc thảo luận về triết học, tôi sẽ phải nhớ luật không mâu thuẫn cho lần tiếp theo là thảo luận về logic mờ; o)
Dikran Marsupial

12

Tại sao CI 95% không ngụ ý 95% cơ hội chứa giá trị trung bình?

Có nhiều vấn đề cần được làm rõ trong câu hỏi này và trong phần lớn các câu trả lời đã cho. Tôi sẽ chỉ giới hạn bản thân mình cho hai người họ.

a. Dân số có nghĩa là gì? Có tồn tại một dân số thực sự có nghĩa là?

Khái niệm về dân số có nghĩa là phụ thuộc vào mô hình. Vì tất cả các mô hình đều sai, nhưng một số là hữu ích, ý nghĩa dân số này là một tiểu thuyết được xác định chỉ để cung cấp các diễn giải hữu ích. Tiểu thuyết bắt đầu với một mô hình xác suất.

(X,F,P),
XFXPF
μ=xXxP(X=x),
PXxXP(X=x)

PPPPM

(X,F,M).
ΘRpp<M{Pθ: θΘ}

PθM

μθ=xXxPθ(X=x).
{μθ: θΘ}MMM

MΘ

b. Định nghĩa và mục đích của khoảng tin cậy là gì?

1αCαθΘ

Pθ(Cα(X)μθ)1α   and   infθΘPθ(Cα(X)μθ)=1α,
Pθ(Cα(X)=)=0Pθ(Cα(X)μθ)Cα(X)μθPθ1α

Lưu ý: Người đọc cần lưu ý rằng không cần thiết phải đưa ra các giả định về trạng thái thực tế, vùng tin cậy được xác định cho một mô hình thống kê được xác định rõ mà không cần tham chiếu đến bất kỳ ý nghĩa "đúng" nào. Ngay cả khi thước đo xác suất "thực" không tồn tại hoặc không có trong , định nghĩa vùng tin cậy sẽ hoạt động, vì các giả định là về mô hình thống kê thay vì trạng thái thực tế.M

Một mặt, trước khi quan sát dữ liệu, là một tập hợp ngẫu nhiên (hoặc khoảng ngẫu nhiên) và xác suất " có nghĩa là ", ít nhất là, cho tất cả . Đây là một tính năng rất mong muốn cho mô hình thường xuyên.Cα(X)Cα(X)μθ(1α)θΘ

Mặt khác, sau khi quan sát dữ liệu , chỉ là một tập hợp cố định và xác suất " chứa trung bình " phải ở {0,1} cho tất cả .xCα(x)Cα(x)μθθΘ

Đó là, sau khi quan sát dữ liệu , chúng ta không thể sử dụng lý do xác suất nữa. Theo như tôi biết, không có lý thuyết nào để xử lý các bộ tự tin cho một mẫu được quan sát (tôi đang làm việc với nó và tôi đang nhận được một số kết quả tốt). Trong một thời gian, người thường xuyên phải tin rằng tập hợp (hoặc khoảng) được quan sát là một trong những có chứa cho tất cả .xCα(x)(1α)100%μθθΘ

PS: Tôi mời bất kỳ bình luận, đánh giá, phê bình, hoặc thậm chí phản đối bài viết của tôi. Hãy thảo luận sâu hơn. Vì tôi không phải là người nói tiếng Anh bản địa, bài viết của tôi chắc chắn có lỗi chính tả và ngữ pháp.

Tài liệu tham khảo:

Schervish, M. (1995), Lý thuyết thống kê, tái bản lần thứ hai, Springer.


Có ai muốn thảo luận về nó?
Alexandre Patriota

4
Các cuộc thảo luận có thể xảy ra trong trò chuyện, nhưng không phù hợp trên trang web chính của chúng tôi. Vui lòng xem trung tâm trợ giúp của chúng tôi để biết thêm thông tin về cách thức hoạt động của nó. Trong khi đó, tôi bối rối trước định dạng bài đăng của bạn: hầu hết tất cả đều được định dạng như một trích dẫn. Bạn đã trích xuất tài liệu này từ một số nguồn được xuất bản hay nó là của riêng bạn, mới được viết cho câu trả lời này? Nếu đó là cái sau, xin vui lòng xóa các trích dẫn!
whuber

2
(+1). Cảm ơn bạn cho một bản tóm tắt rõ ràng ấn tượng. Chào mừng đến với trang web của chúng tôi!
whuber

11

Tôi ngạc nhiên khi không ai đưa ra ví dụ của Berger về khoảng tin cậy 75% vô dụng về cơ bản được mô tả trong chương thứ hai của "Nguyên tắc khả năng sống". Các chi tiết có thể được tìm thấy trong văn bản gốc ( có sẵn miễn phí trên Project Euclid ): điều cần thiết về ví dụ là nó mô tả, rõ ràng, một tình huống mà bạn biết chắc chắn tuyệt đối về giá trị của một tham số không rõ ràng về mặt sau quan sát dữ liệu, nhưng bạn sẽ khẳng định rằng bạn chỉ tin tưởng 75% rằng khoảng của bạn chứa giá trị thực. Làm việc thông qua các chi tiết của ví dụ đó là điều cho phép tôi hiểu toàn bộ logic xây dựng các khoảng tin cậy.


8
Trong cài đặt thường xuyên, người ta sẽ không "khẳng định rằng bạn chỉ có 75% tin tưởng rằng khoảng thời gian của bạn chứa giá trị thực" liên quan đến CI, ngay từ đầu. Ở đây, là mấu chốt của vấn đề. :)
hồng y

1
bạn có thể cung cấp một liên kết trực tiếp / trang tham khảo cho ví dụ đó? Tôi đã tìm kiếm chương nhưng tôi không thể xác định ví dụ chính xác.
Ronald

@Ronald: Đây là trang đầu tiên trên trang đầu tiên của Chương 2. Một liên kết trực tiếp sẽ là một bổ sung đáng hoan nghênh.
Đức hồng y

1
Liên kết theo yêu cầu. À đúng rồi. Trong ví dụ này, có vẻ rõ ràng: nếu chúng tôi thực hiện một thử nghiệm, có 75% khả năng Khoảng tin cậy kết quả sẽ chứa giá trị trung bình. Khi chúng tôi đã thực hiện thử nghiệm và chúng tôi biết cách nó diễn ra, xác suất đó có thể khác nhau, tùy thuộc vào sự phân phối của mẫu kết quả.
Ronald

7

Tôi không biết liệu câu hỏi này có nên được hỏi như một câu hỏi mới hay không nhưng nó đang giải quyết chính câu hỏi được hỏi ở trên bằng cách đề xuất một thí nghiệm suy nghĩ.

Đầu tiên, tôi sẽ giả định rằng nếu tôi chọn ngẫu nhiên một thẻ chơi từ một cỗ bài tiêu chuẩn, xác suất tôi đã chọn một câu lạc bộ (không nhìn vào nó) là 13/52 = 25%.

Và thứ hai, đã được tuyên bố nhiều lần rằng khoảng tin cậy 95% nên được giải thích theo cách lặp lại một thử nghiệm nhiều lần và khoảng thời gian được tính sẽ chứa ý nghĩa thực sự 95% của thời gian - Tôi nghĩ rằng điều này được James Waters chứng minh một cách hợp lý mô phỏng. Hầu hết mọi người dường như chấp nhận cách giải thích này của CI 95%.

Bây giờ, cho các thí nghiệm suy nghĩ. Giả sử rằng chúng ta có một biến phân phối bình thường trong một dân số lớn - có thể là chiều cao của nam hoặc nữ trưởng thành. Tôi có một trợ lý sẵn sàng và không mệt mỏi mà tôi giao nhiệm vụ thực hiện nhiều quy trình lấy mẫu với cỡ mẫu nhất định từ dân số và tính trung bình mẫu và khoảng tin cậy 95% cho mỗi mẫu. Trợ lý của tôi rất quan tâm và quản lý để đo lường tất cả các mẫu có thể từ dân số. Sau đó, đối với mỗi mẫu, trợ lý của tôi ghi lại khoảng tin cậy kết quả là màu xanh lá cây (nếu CI chứa giá trị trung bình thực) hoặc màu đỏ (nếu CI không chứa giá trị trung bình thực). Thật không may, trợ lý của tôi sẽ không cho tôi thấy kết quả thí nghiệm của anh ấy. Tôi cần có được một số thông tin về chiều cao của người lớn trong dân chúng nhưng tôi chỉ có thời gian, tài nguyên và sự kiên nhẫn để làm thí nghiệm một lần. Tôi tạo một mẫu ngẫu nhiên duy nhất (có cùng cỡ mẫu được sử dụng bởi trợ lý của tôi) và tính khoảng tin cậy (sử dụng cùng một phương trình).

Tôi không có cách nào để xem kết quả của trợ lý của tôi. Vì vậy, xác suất mà mẫu ngẫu nhiên tôi đã chọn sẽ mang lại một CI màu xanh lá cây (tức là khoảng chứa giá trị trung bình thực) là bao nhiêu?

Trong tâm trí của tôi, điều này giống như tình huống thẻ được nêu ra trước đây và có thể được hiểu là xác suất 95% rằng khoảng tính toán có chứa giá trị trung bình thực (nghĩa là màu xanh lá cây). Tuy nhiên, sự đồng thuận dường như là khoảng tin cậy 95% KHÔNG thể được hiểu vì có xác suất 95% rằng khoảng đó chứa giá trị trung bình thực. Tại sao (và ở đâu) lý luận của tôi trong thí nghiệm suy nghĩ ở trên sụp đổ?


+1 Đây là một tài khoản rõ ràng đáng chú ý về sự tiến triển khái niệm từ một dân số bình thường sang một tình huống lấy mẫu nhị phân. Cảm ơn bạn đã chia sẻ nó với chúng tôi, và chào mừng đến với trang web của chúng tôi!
whuber

Xin vui lòng gửi này như là một câu hỏi.
Giăng

Cảm ơn vì nhận xét, John. Hiện tại đã được đăng dưới dạng một câu hỏi riêng biệt ( stats.stackexchange.com/questions/301478/ Ấn ).
dùng1718097

4

Trong khi đã có nhiều cuộc thảo luận trong nhiều câu trả lời tuyệt vời, tôi muốn thêm một quan điểm đơn giản hơn. (mặc dù đã được ám chỉ trong các câu trả lời khác - nhưng không rõ ràng.) Đối với một số tham số và được cung cấp một mẫu , khoảng tin cậy là tuyên bố xác suất của biểu mẫuθ(X1,X2,,Xn)100p%

P(g(X1,X2,,Xn)<θ<f(X1,X2,,Xn))=p

Nếu chúng ta coi là một hằng số, thì câu lệnh trên là về các biến ngẫu nhiên và hoặc chính xác hơn, đó là về khoảng ngẫu nhiên .g ( X 1 , X 2 , , X n ) f ( X 1 , X 2 , , X n ) ( g ( X 1 , X 2 , , X n ) , f ( X 1 , X 2 , , X n ) )θg(X1,X2,,Xn)f(X1,X2,,Xn)(g(X1,X2,,Xn),f(X1,X2,,Xn))

Vì vậy, thay vì đưa ra bất kỳ thông tin nào về xác suất của tham số được chứa trong khoảng, nó cung cấp thông tin về xác suất của khoảng chứa tham số - vì khoảng được tạo từ các biến ngẫu nhiên.


3

Đối với các mục đích thực tế, bạn không còn sai lầm khi đặt cược rằng 95% CI của bạn bao gồm giá trị trung bình thực ở tỷ lệ 95: 5, hơn là bạn đặt cược vào tỷ lệ cược của bạn bè với tỷ lệ 50:50.

Nếu bạn của bạn đã lật đồng xu và bạn nghĩ rằng có xác suất 50% số tiền đó là đầu, thì bạn chỉ đang sử dụng một định nghĩa khác về xác suất từ. Như những người khác đã nói, đối với những người thường xuyên, bạn không thể chỉ định xác suất cho một sự kiện đã xảy ra, mà là bạn có thể mô tả xác suất của một sự kiện xảy ra trong tương lai bằng một quy trình nhất định.

Từ một blog khác: Người thường xuyên sẽ nói: "Một sự kiện cụ thể không thể có xác suất. Đồng xu hiển thị đầu hoặc đuôi, và trừ khi bạn hiển thị nó, tôi chỉ đơn giản là không thể nói thực tế là gì. Chỉ khi bạn lặp lại việc ném nhiều lần, nhiều lần, nếu bạn thay đổi các điều kiện ban đầu của các cú ném đủ mạnh, tôi hy vọng rằng tần số tương đối của các đầu trong tất cả các lần ném sẽ đạt tới 0,5 ". http://www.researchgate.net/post/What_is_the_difference_b between_frequentist_and_bayesian_probability


2
Blog đó nghe như một cuộc tranh luận của người đàn ông rơm. Nó xuất hiện để làm bối rối một triết lý xác suất với một số loại giới hạn vốn có (không tồn tại) trong khả năng tạo ra các mô hình xác suất. Tôi không nhận ra bất kỳ hình thức thủ tục thống kê cổ điển hoặc phương pháp luận nào trong đặc tính đó. Tuy nhiên, tôi nghĩ rằng kết luận cuối cùng của bạn là một kết quả tốt - nhưng ngôn ngữ mà nó sử dụng, bằng cách không nói rõ rằng đặt cược liên quan đến CI và không có nghĩa là rủi ro tạo ra một dạng nhầm lẫn mà câu hỏi này nhằm giải quyết.
whuber

1
Một cách tôi thấy thường được sử dụng là nhấn mạnh rằng CI là kết quả của một thủ tục. Điều tôi thích về tuyên bố cuối cùng của bạn là nó có thể dễ dàng được thu lại dưới dạng như vậy, như trong "Bạn không còn sai khi đặt cược với tỷ lệ 95: 5 rằng khoảng tin cậy 95% của bạn đã bao hàm ý nghĩa thực sự, hơn bạn để đặt cược vào đồng xu của bạn bè của bạn với tỷ lệ cược 50:50. "
whuber

OK, đã thay đổi nó.
nigelhenry 1/12/2015

2

Giả sử rằng CI bạn đã tính từ bộ dữ liệu cụ thể mà bạn có là một trong 5% các TCTD có thể không chứa giá trị trung bình. Làm thế nào gần đến mức là khoảng tin cậy 95% mà bạn muốn tưởng tượng nó là? (Nghĩa là, nó gần với mức trung bình với xác suất 95% như thế nào?) Bạn không có gì chắc chắn rằng nó gần như vậy cả. Trên thực tế, CI của bạn có thể không trùng lặp với ngay cả một trong số 95% của 95% các TCTD thực sự có chứa giá trị trung bình. Chưa kể rằng nó không chứa chính nó, điều này cũng cho thấy nó không phải là khoảng tin cậy 95%.

Có thể bạn muốn bỏ qua điều này và lạc quan cho rằng CI của bạn là một trong 95% có chứa giá trị trung bình. OK, chúng tôi biết gì về CI của bạn, với tỷ lệ 95%? Rằng nó chứa giá trị trung bình, nhưng có lẽ chỉ có lối thoát ở mức cực đoan, không bao gồm mọi thứ khác ở phía bên kia của giá trị trung bình. Không có khả năng chứa 95% phân phối.

Dù bằng cách nào, không có gì đảm bảo, thậm chí có thể không hy vọng hợp lý rằng 95% CI của bạn là khoảng tin cậy 95%.


Tôi tò mò về đoạn đầu tiên. Có lẽ tôi đang đọc sai nó, nhưng lập luận có vẻ hơi mâu thuẫn với thực tế là có nhiều ví dụ trong đó các TCTD và khoảng tin cậy trùng khớp với tất cả các quan sát có thể có. Tôi đã bỏ lỡ những gì?
Đức hồng y

@cardinal: Tôi có thể sai. Tôi đã nói về trường hợp chung, nhưng tôi đoán là trong trường hợp CI và khoảng tin cậy là như nhau, có những hạn chế khác như tính quy tắc giữ cho CI không ở quá xa.
Wayne

Trọng tâm của tôi đã được rút ra mạnh mẽ nhất đến câu cuối cùng trong đoạn văn; ví dụ về các khoảng trùng hợp có ý nghĩa làm nổi bật một điểm. Bạn có thể xem xét liệu bạn có thực sự tin câu đó hay không. :)
Đức hồng y

Bạn có nghĩa là 95% CI không ngụ ý rằng 5% không bao gồm giá trị trung bình? Tôi nên nói "theo định nghĩa, thậm chí không cần phải chứa ý nghĩa"? Hay tôi còn thiếu nhiều hơn?
Wayne

Wayne, làm thế nào mà một khoảng thời gian cụ thể không chứa trung bình ngăn cản nó trở thành một khoảng tin cậy hợp lệ? Tôi có đọc sai nhận xét này không?
Đức hồng y

2

(tức là một người bạn lật đồng xu công bằng, che giấu kết quả và tôi không được phép nói rằng có 50% khả năng là nó đứng đầu)

Nếu bạn chỉ đoán bạn bè của mình tung đồng xu với 50% đầu / đuôi thì bạn đã không làm đúng.

  • Bạn nên cố gắng nhìn nhanh vào đồng tiền sau / khi nó hạ cánh và trước khi kết quả bị ẩn.
  • Ngoài ra, bạn nên cố gắng tạo trước một số ước tính tiên nghiệm về tính công bằng của đồng tiền.

Chắc chắn độ tin cậy của dự đoán của bạn về việc lật đồng xu sẽ phụ thuộc vào các điều kiện này và không phải lúc nào cũng giống nhau 50% (đôi khi phương pháp 'gian lận' của bạn có thể hoạt động tốt hơn).

Dự đoán tổng thể của bạn có thể là, nếu bạn gian lận, x> 50% thời gian đúng, nhưng điều đó không nhất thiết có nghĩa là xác suất cho mỗi lần ném cụ thể liên tục là x% đầu. Vì vậy, sẽ hơi lạ khi dự đoán xác suất tổng thể của bạn vào xác suất cho một lần ném cụ thể. Đó là một "loại xác suất" khác nhau.


Đó là một chút về mức độ hoặc độ sâu bạn chỉ định / xác định 'xác suất' .

  • Độ tin cậy độc lập với 'xác suất cụ thể trong thí nghiệm cụ thể / lật'độc lập với 'xác suất tiên nghiệm' .

  • Sự tự tin là về tập hợp của các thí nghiệm . Nó được xây dựng sao cho bạn không cần phải biết xác suất hoặc phân phối trong dân số.

  • Độ tin cậy là về 'tỷ lệ thất bại' tổng thể của ước tính nhưng đối với các trường hợp cụ thể, người ta có thể chỉ định các biến thể chính xác hơn trong xác suất .

    (Về mặt lý thuyết, các biến thể này ít nhất tồn tại ngầm , và chúng ta không cần biết chúng tồn tại. Nhưng chúng ta có thể diễn đạt rõ ràng các xác suất này bằng cách sử dụng phương pháp Bayes).


Ví dụ 1:

Nói rằng bạn đang thử nghiệm cho một căn bệnh rất hiếm. Bạn thực hiện một xét nghiệm có thể được xem là thử nghiệm Bernoulli (dương tính hoặc âm tính) có cho kết quả dương tính khi người đó bị bệnh hoặc thấp khi người đó không bị bệnh.p=0.99p=0.01

Bây giờ điều này thường không được thực hiện (trong thực hành lâm sàng) để ước tính khoảng CI cho nhưng bạn có thể làm điều này (ví dụ) nếu bạn muốn. Nếu thử nghiệm dương tính thì bạn ước tính và nếu thử nghiệm âm tính thì bạn ước tính .p0.05p10p0.95

Nếu bạn có 1% dân số mắc bệnh, thì trung bình bạn sẽ có 1,98% kết quả xét nghiệm dương tính (1% từ 99% người khỏe mạnh kiểm tra dương tính và 99% từ 1% người bệnh có kết quả xét nghiệm dương tính). Điều này làm cho khoảng 95% CI của bạn, (có điều kiện) khi bạn gặp một bài kiểm tra tích cực , chỉ đúng 50% thời gian.

Mặt khác, khi bạn gặp phải một bài kiểm tra âm tính, bạn sẽ có hơn 95% thời gian chính xác để ước tính khoảng thời gian CI của bạn là chính xác (ít nhất) 95% thời gian, nhưng trong từng trường hợp cụ thể (đối với trường hợp cụ thể ) bạn thực sự không thể nói rằng xác suất cho trong khoảng là 95%. Có khả năng một số biến thể.p

Ví dụ 2:

Nói rằng bạn có người thực hiện 300 câu hỏi IQ. Từ khoảng tin cậy ngây thơ và quan điểm thường xuyên, bạn có thể giả sử rằng mỗi người có phân phối lý thuyết cho hiệu suất thử nghiệm và dựa trên hiệu suất thử nghiệm được quan sát, bạn có thể tạo ước tính cho một khoảng sao cho trong 95% trường hợp bạn sẽ có quyền chứa đúng trong khoảng thời gian.iN(μi,σi2)μi

Điều này bỏ qua rằng có ảnh hưởng của hồi quy với giá trị trung bình và xác suất a- cho IQ của bất kỳ ai được phân phối là . Sau đó, trong các trường hợp cực đoan, thấp hoặc cao, kết quả của kết quả, xác suất IQ của một người trong khoảng tin cậy 95% dựa trên các phép đo / kiểm tra sẽ thấp hơn 95%.μiN(100,15)

(điều ngược lại cũng đúng với những người có kết quả gần 100, IQ của họ có thể sẽ cao hơn 95% trong 95% -CI, và điều này sẽ bù đắp cho những sai lầm mà bạn đã gây ra ở những thái cực mà cuối cùng bạn đã đúng trong 95% các trường hợp)


2

Trước tiên, hãy đưa ra định nghĩa về khoảng tin cậy hoặc trong không gian có kích thước lớn hơn một, vùng tin cậy. Định nghĩa này là một phiên bản ngắn gọn được đưa ra bởi Jerzy Neyman trong bài viết năm 1937 của mình cho Hội Hoàng gia.

Đặt tham số là và thống kê là . Mỗi giá trị tham số có thể được liên kết với vùng chấp nhận trong đó , với là hệ số tin cậy hoặc mức độ tin cậy (thường là 0,95) và là thông tin cơ bản mà chúng ta phải xác định xác suất của mình . Vùng tin cậy cho , được cho , sau đó là .pspA(p,α)prob(sA(p,α)|p=p,I)=ααIps=sC(s,α)={p|sA(p,α)}

Nói cách khác, các giá trị tham số hình thành vùng tin cậy chỉ là những giá trị có vùng khả năng tương ứng của không gian mẫu chứa thống kê.α

Bây giờ hãy xem xét rằng đối với bất kỳ giá trị tham số có thể :p

[pC(s,α)]prob(s=s|p=p,I)ds=[sA(p,α)]prob(s=s|p=p,I)ds=α

trong đó dấu ngoặc vuông là dấu ngoặc Iverson. Đây là kết quả chính cho khoảng tin cậy hoặc khu vực. Nó nói rằng kỳ vọng của , theo phân phối lấy mẫu có điều kiện trên , là . Kết quả này được đảm bảo bằng cách xây dựng các vùng chấp nhận và hơn nữa, nó áp dụng cho , bởi vì là một giá trị tham số có thể. Tuy nhiên, đây không phải là tuyên bố xác suất về , vì kỳ vọng không phải là xác suất![pC(s,α)]pαppp

Xác suất mà kỳ vọng thường bị nhầm lẫn là xác suất, có điều kiện trên , rằng tham số nằm trong vùng tin cậy:s=s

prob(pC(s,α)|s=s,I)=C(s,α)prob(s=s|p=p,I)prob(p=p|I)dpprob(s=s|p=p,I)prob(p=p|I)dp

Xác suất này giảm xuống chỉ còn đối với một số kết hợp thông tin nhất định và vùng chấp nhận . Ví dụ: nếu ưu tiên là đồng nhất và phân phối lấy mẫu đối xứng theo và (ví dụ: Gaussian với là giá trị trung bình), thì:αIA(p,α)spp

prob(pC(s,α)|s=s,I)=C(s,α)prob(s=p|p=s,I)dpprob(s=p|p=s,I)dp=prob(sC(s,α)|p=s,I)=prob(sA(s,α)|p=s,I)

Ngoài ra, các vùng chấp nhận sao cho , sau đó:sA(s,α)sA(s,α)

prob(pC(s,α)|s=s,I)=prob(sA(s,α)|p=s,I)=α

Ví dụ trong sách giáo khoa về ước tính dân số có khoảng tin cậy tiêu chuẩn được xây dựng về một thống kê bình thường là một trường hợp đặc biệt của các giả định trước đó. Do đó, khoảng tin cậy 95% tiêu chuẩn không chứa giá trị trung bình với xác suất 0,95; nhưng sự tương ứng này thường không giữ được.


-1

Có một số câu trả lời thú vị ở đây, nhưng tôi nghĩ rằng tôi đã thêm một chút trình diễn thực hành bằng cách sử dụng R. Gần đây chúng tôi đã sử dụng mã này trong một khóa học thống kê để làm nổi bật cách các khoảng tin cậy hoạt động. Đây là những gì mã làm:

1 - Nó lấy mẫu từ một phân phối đã biết (n = 1000)

2 - Nó tính toán 95% CI cho giá trị trung bình của từng mẫu

3 - Nó hỏi liệu mỗi CI của mẫu có bao gồm giá trị trung bình thực hay không.

4 - Nó báo cáo trong bảng điều khiển tỷ lệ các TCTD bao gồm giá trị trung bình thực.

Tôi chỉ chạy kịch bản một loạt lần và thực sự không quá hiếm khi thấy rằng ít hơn 94% các TCTD có ý nghĩa thực sự. Ít nhất với tôi, điều này giúp xua tan ý tưởng rằng khoảng tin cậy có xác suất 95% chứa tham số thực.

#   In the following code, we simulate the process of
#   sampling from a distribution and calculating
#   a confidence interval for the mean of that 
#   distribution.  How often do the confidence
#   intervals actually include the mean? Let's see!
#
#   You can change the number of replicates in the
#   first line to change the number of times the 
#   loop is run (and the number of confidence intervals
#   that you simulate).
#
#   The results from each simulation are saved to a
#   data frame.  In the data frame, each row represents
#   the results from one simulation or replicate of the 
#   loop.  There are three columns in the data frame, 
#   one which lists the lower confidence limits, one with
#   the higher confidence limits, and a third column, which
#   I called "Valid" which is either TRUE or FALSE
#   depending on whether or not that simulated confidence
#   interval includes the true mean of the distribution.
#
#   To see the results of the simulation, run the whole
#   code at once, from "start" to "finish" and look in the
#   console to find the answer to the question.    

#   "start"

replicates <- 1000

conf.int.low <- rep(NA, replicates)
conf.int.high <- rep(NA, replicates)
conf.int.check <- rep(NA, replicates)

for (i in 1:replicates) {

        n <- 10
        mu <- 70
        variance <- 25
        sigma <- sqrt(variance)
        sample <- rnorm(n, mu, sigma)
        se.mean <- sigma/sqrt(n)
        sample.avg <- mean(sample)
        prob <- 0.95
        alpha <- 1-prob
        q.alpha <- qnorm(1-alpha/2)
        low.95 <- sample.avg - q.alpha*se.mean
        high.95 <- sample.avg + q.alpha*se.mean

        conf.int.low[i] <- low.95
        conf.int.high[i] <- high.95
        conf.int.check[i] <- low.95 < mu & mu < high.95
 }    

# Collect the intervals in a data frame
ci.dataframe <- data.frame(
        LowerCI=conf.int.low,
        UpperCI=conf.int.high, 
        Valid=conf.int.check
        )

# Take a peak at the top of the data frame
head(ci.dataframe)

# What fraction of the intervals included the true mean?
ci.fraction <- length(which(conf.int.check, useNames=TRUE))/replicates
ci.fraction

    #   "finish"

Hi vọng điêu nay co ich!


2
Xin lỗi vì những lời chỉ trích, nhưng tôi đã (tạm thời) hạ thấp câu trả lời này. Tôi tin rằng đó là sự hiểu lầm về ý nghĩa của khoảng tin cậy và tôi thực sự hy vọng đây không phải là đối số được sử dụng trong lớp của bạn. Các mô phỏng giảm xuống một thí nghiệm lấy mẫu nhị thức (khá công phu).
Đức hồng y

5
@cardinal Chà ... anh ta chỉ sử dụng cách diễn giải dài hạn các số liệu thống kê thường xuyên. Lấy mẫu từ dân số nhiều lần, tính toán CI nhiều lần và bạn thấy rằng giá trị trung bình thực được chứa trong CI 95% thời gian (cho ). Ít nhất thì điều đó khá rõ ràng với tôi. 1α=0.95
Néstor

4
"Ít hơn 94%" trong mẫu 1000 TCTD chắc chắn không phải là bằng chứng quan trọng chống lại ý kiến ​​cho rằng 95% TCTD có giá trị trung bình. Trên thực tế, tôi hy vọng 95% các TCTD thực sự có chứa giá trị trung bình, trong trường hợp này.
Ronald

3
@Ronald: Vâng, đây chính xác là quan điểm của tôi với các ý kiến, nhưng bạn đã nói nó nhiều đơn giản hơn và chính xác. Cảm ơn. Như đã nêu trong một trong các ý kiến, người ta sẽ thấy 940 thành công hoặc ít hơn khoảng 8,7% thời gian và điều đó đúng với bất kỳ CI chính xác 95% nào mà một người xây dựng trong suốt 1000 thử nghiệm. :)
Đức hồng y

2
@JamesWaters: Cảm ơn bạn đã dành thời gian trả lời. Mã này ổn, nhưng tôi không thấy nó "thể hiện các trường hợp trong đó nó không đúng". Bạn có thể giải thích ý định đó? Tôi vẫn nghi ngờ có thể có một sự hiểu lầm cơ bản ở đây. Bạn dường như hiểu I CI là gì và làm thế nào để giải thích chính xác, nhưng thí nghiệm mô phỏng không trả lời cho câu hỏi mà bạn dường như đang khẳng định nó trả lời. Tôi nghĩ rằng câu trả lời này có tiềm năng, vì vậy tôi muốn thấy nó kết thúc với một chỉnh sửa đẹp để làm rõ điểm bạn đang cố gắng vượt qua. Chúc mừng. :)
Đức hồng y
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.