Khoảng tin cậy có hữu ích không?


11

Trong thống kê thường xuyên, khoảng tin cậy 95% là một quy trình tạo khoảng, nếu lặp lại một số lần vô hạn, sẽ chứa tham số thực 95% thời gian. Tại sao điều này hữu ích?

Khoảng tin cậy thường bị hiểu lầm. Chúng không phải là một khoảng mà chúng ta có thể chắc chắn 95% là tham số (trừ khi bạn đang sử dụng khoảng tin cậy tương tự Bayes). Khoảng tin cậy cảm thấy như một mồi nhử và chuyển sang tôi.

Trường hợp sử dụng mà tôi có thể nghĩ đến là cung cấp phạm vi các giá trị mà chúng tôi không thể bác bỏ giả thuyết null rằng tham số là giá trị đó. Giá trị p sẽ không cung cấp thông tin này, nhưng tốt hơn? Mà không bị sai lệch như vậy?

Tóm lại: Tại sao chúng ta cần khoảng tin cậy? Làm thế nào chúng, khi giải thích chính xác, hữu ích?



Khoảng tin cậy Bayes không phải là khoảng mà chúng ta có thể chắc chắn 95% là tham số.
Sextus Empiricus

@MartijnWeterings: trừ khi bạn chắc chắn 100% trước đó.
Tây An

@ Xi'an hoạt động khi một tham số chắc chắn 100% được coi là hợp lý một biến ngẫu nhiên và một thử nghiệm giống như lấy mẫu từ phân phối tần số chung , tức là bạn sử dụng quy tắc Bayes như: mà không rõ ràng 'trước'. Nó không giống nhau cho một tham số được coi là cố định. Sau đó, niềm tin sau sẽ yêu cầu bạn cũng 'cập nhật' phân phối tần số chung cũ của và . Thật là hơi vô lý khi tuyên bố rằng đang cập nhật 'niềm tin trước đó' chắc chắn 100%. P ( θ , x ) P ( θ | x ) = P ( θ , x ) / P ( x ) X θθP(θ,x)P(θ|x)=P(θ,x)/P(x)Xθ
Sextus Empiricus

Câu trả lời:


10

Chừng nào khoảng tin cậy được coi là ngẫu nhiên (nghĩa là nhìn từ góc độ coi dữ liệu là một tập hợp các biến ngẫu nhiên mà chúng ta chưa thấy) thì chúng ta thực sự có thể đưa ra các tuyên bố xác suất hữu ích về nó. Cụ thể, giả sử bạn có khoảng tin cậy ở cấp cho tham số và khoảng đó có giới hạn . Sau đó, chúng ta có thể nói rằng:1αθL(x)U(x)

P(L(X)θU(X)|θ)=1αfor all θΘ.

Di chuyển ra ngoài mô hình thường xuyên và cận biên trên cho bất kỳ phân phối trước nào cho kết quả xác suất cận biên (yếu hơn) tương ứng:θ

P(L(X)θU(X))=1α.

Khi chúng tôi sửa các giới hạn của khoảng tin cậy bằng cách sửa dữ liệu thành , chúng tôi không còn kháng cáo với tuyên bố xác suất này nữa, vì giờ chúng tôi đã sửa dữ liệu. Tuy nhiên, nếu khoảng tin cậy được coi là khoảng ngẫu nhiên thì chúng ta thực sự có thể đưa ra tuyên bố xác suất này --- nghĩa là với xác suất , tham số sẽ nằm trong khoảng (ngẫu nhiên).X=x 1 - alpha q1αθ

Trong các số liệu thống kê thường xuyên, các báo cáo xác suất là các tuyên bố về tần số tương đối trong các thử nghiệm lặp lại vô hạn. Nhưng điều đó đúng với mọi tuyên bố xác suất trong mô hình thường xuyên, vì vậy nếu sự phản đối của bạn là các tuyên bố tần số tương đối, thì đó không phải là sự phản đối dành riêng cho các khoảng tin cậy. Nếu chúng ta di chuyển ra ngoài mô hình thường xuyên thì chúng ta có thể nói một cách hợp pháp rằng khoảng tin cậy chứa tham số đích của nó với xác suất mong muốn, miễn là chúng ta đưa ra tuyên bố xác suất này một cách nhẹ nhàng (nghĩa là không có điều kiện trên dữ liệu) và do đó chúng ta xử lý khoảng tin cậy trong ý nghĩa ngẫu nhiên của nó.

Tôi không biết về người khác, nhưng dường như đó là một kết quả xác suất khá mạnh mẽ và là lời biện minh hợp lý cho hình thức khoảng này. Bản thân tôi là một phần của các phương pháp Bayes, nhưng kết quả xác suất ủng hộ khoảng tin cậy (theo nghĩa ngẫu nhiên của chúng) là kết quả mạnh mẽ không thể đánh hơi được.


1
"Di chuyển ra ngoài mô hình thường xuyên" không phải là vấn đề chính xác? Nói chung, chúng tôi muốn một khoảng có chứa giá trị thực của một tham số quan tâm với một số xác suất. Không có phân tích thường xuyên nào có thể cho chúng ta điều đó, và ngầm diễn giải nó như một phân tích Bayes dẫn đến những hiểu lầm. Tốt hơn để trả lời câu hỏi trực tiếp thông qua một khoảng tin cậy Bayes. Có những cách sử dụng cho khoảng tin cậy khi bạn liên tục thực hiện "thí nghiệm", ví dụ: kiểm soát chất lượng.
Dikran Marsupial

Đây không phải là vấn đề ngầm diễn giải lại như Bayes (điều sau sẽ dựa trên dữ liệu để có được một hậu thế). Câu trả lời chỉ đơn thuần là cho OP thấy rằng chúng ta có thể đưa ra các tuyên bố xác suất hữu ích về khoảng tin cậy. Đối với những phản đối chung hơn đối với mô hình thường xuyên, những điều đó là tốt và tốt, nhưng chúng không phải là sự phản đối cụ thể đối với khoảng tin cậy.
Ben - Tái lập Monica

1
Như bạn có thể thấy từ các báo cáo xác suất ở trên, chúng tôi có thể đảm bảo rằng CI chứa tham số với một số xác suất, miễn là chúng tôi xem xét điều này một tiên nghiệm .
Ben - Tái lập Monica

1
Nếu bạn đã rời khỏi mô hình thường xuyên, nhưng không chuyển sang khuôn khổ Bayes, thì đó là khuôn khổ nào? Tôi đã không bày tỏ sự phản đối đối với chủ nghĩa thường xuyên, tôi tin rằng bạn nên sử dụng khuôn khổ trả lời trực tiếp nhất câu hỏi mà bạn thực sự muốn đặt ra. Khoảng tin cậy và đáng tin cậy trả lời các câu hỏi khác nhau.
Dikran Marsupial

1
@Dikran: Câu lệnh xác suất là viết và là một câu lệnh toán học thuần túy. Tôi thực sự không thấy làm thế nào bạn có thể phản đối hợp lý điều này.
Ben - Tái lập Monica

5

Tôi đồng ý với @Ben ở trên và tôi nghĩ rằng tôi sẽ cung cấp một ví dụ đơn giản về việc một Bayesian so với khoảng thường xuyên sẽ có giá trị trong cùng hoàn cảnh.

Hãy tưởng tượng một nhà máy với dây chuyền lắp ráp song song. Rất tốn kém để ngăn chặn một dòng, và đồng thời, họ muốn sản xuất các sản phẩm chất lượng. Họ lo ngại về cả dương tính giả và âm tính giả theo thời gian. Đối với nhà máy, đó là một quá trình trung bình: cả sức mạnh và sự bảo vệ được bảo đảm chống lại vấn đề tích cực giả. Khoảng tin cậy, cũng như khoảng dung sai, quan trọng đối với nhà máy. Tuy nhiên, máy móc sẽ mất liên kết, đó là và thiết bị phát hiện sẽ quan sát các sự kiện giả. Kết quả trung bình quan trọng trong khi kết quả cụ thể là một chi tiết hoạt động.θΘ

Ở phía đối diện này là một khách hàng mua một sản phẩm hoặc một lô sản phẩm. Họ không quan tâm đến các thuộc tính lặp lại của dây chuyền lắp ráp. Họ quan tâm đến một sản phẩm mà họ đã mua. Chúng ta hãy tưởng tượng khách hàng là NASA và họ cần sản phẩm để đáp ứng một đặc điểm kỹ thuật, giả sử Họ không quan tâm đến chất lượng của các bộ phận mà họ đã không mua. Họ cần một khoảng thời gian Bayes của một số hình thức. Hơn nữa, một thất bại duy nhất có thể giết chết nhiều phi hành gia và tiêu tốn hàng tỷ đô la. Họ cần biết rằng mỗi bộ phận được mua đều đáp ứng các thông số kỹ thuật. Tính trung bình sẽ gây chết người. Đối với một tên lửa Saturn V, tỷ lệ lỗi một phần trăm sẽ bao hàm 10.000 bộ phận bị lỗi trong các chuyến bay Apollo. Họ yêu cầu 0% lỗi trên tất cả các nhiệm vụ.γΓ.

Bạn lo lắng về việc có một khoảng tin cậy khi bạn đang làm việc trong không gian mẫu như một nhà máy đang làm. Nó đang tạo ra không gian mẫu. Bạn lo lắng về khoảng thời gian đáng tin cậy khi bạn đang làm việc trong không gian tham số, như một khách hàng sẽ làm. Nếu bạn không quan tâm đến những quan sát bên ngoài của bạn, thì bạn là Bayes. Nếu bạn quan tâm đến các mẫu không được nhìn thấy, nhưng có thể đã được nhìn thấy, thì bạn là người thường xuyên.

Bạn có quan tâm đến tính trung bình dài hạn hoặc sự kiện cụ thể không?


NASA có thực sự mua các bộ phận dựa trên các khoảng thời gian Bayes không? Tôi hiểu quan điểm của bạn, nhưng họ thực sự làm điều đó?
Aksakal

@Aksakal tôi không biết. Juran, tất nhiên, đã viết một công trình tuyệt vời về đảm bảo chất lượng tại NASA, nhưng tôi không thể nhớ được tất cả nếu quá trình thử nghiệm được thảo luận vì đã hơn một thập kỷ kể từ khi tôi đọc nó. Tôi biết rằng W Edwards Deming đã phản đối các khoảng tin cậy có lợi cho các khoảng đáng tin cậy, nhưng một lần nữa, điều đó không liên quan trực tiếp. Tôi đoán, và tôi biết những người sẽ biết nhưng thật bất tiện khi hỏi, rằng họ sử dụng các phương pháp Thường xuyên bởi vì đó là điều mà hầu hết mọi người được đào tạo. Bạn sử dụng búa bạn có.
Dave Harris

Đây có phải là trường hợp của "một cái búa" không? Có lẽ nó có liên quan đến cách mọi thứ trong kỹ thuật?
Aksakal

@Aksakal Tôi không đủ điều kiện để nói về điều đó.
Dave Harris

Giả sử một công ty tạo ra phần, với bài kiểm tra giả thuyết tổng hợp cấp độ bạn đã kiểm tra lỗi của họ : trong số họ vượt qua mà không có lỗi và thất bại. Bạn có thể cung cấp cho NASA một sự đảm bảo hợp lý. Số lượng sản phẩm tối đa có thể vô tình vượt qua bài kiểm tra (được xem xét sai mà không có lỗi) là . Biết rằng bạn đã bán các mặt hàng, bạn có thể tính xác suất tối đa rằng một phần được bán thực sự không phù hợp với giả thuyết thay thế . α H 0 : γ > Γ x y n α x γ ΓnαH0:γ>ΓxynαxγΓ
Sextus Empiricus

4

Lưu ý rằng vào đúng định nghĩa của khoảng tin cậy, nó có thể rằng họ là hoàn toàn vô nghĩa, tức là, không nhiều thông tin về thông số quan tâm. Tuy nhiên, trong thực tế, chúng thường rất có ý nghĩa.

Như một ví dụ về khoảng tin cậy vô nghĩa, giả sử tôi có một quy trình 95% thời gian tạo ra và 5% thời gian tạo ra [ , ], trong đó là bất kỳ cặp biến ngẫu nhiên nào sao cho . Sau đó, đây là một thủ tục nắm bắt bất kỳ xác suất nào ít nhất 95% thời gian, vì vậy về mặt kỹ thuật là khoảng tin cậy hợp lệ cho bất kỳ xác suất nào. Tuy nhiên, nếu tôi nói rằng khoảng thời gian được tạo ra bởi thủ tục này là cho một nhất định , bạn sẽ nhận ra rằng bạn thực sự không học được gì về .[0,1]UminUmaxUmin,Umax U m i n < U m a x [ 0,01 , 0,011 ] p pUmin<Umax[0.01,0.011]pp

Mặt khác, hầu hết các khoảng tin cậy được xây dựng theo cách hữu ích hơn. Ví dụ: nếu tôi nói với bạn rằng nó được tạo bằng thủ tục Wald Interval, thì chúng tôi biết rằng

p^ ˙ N(p,se)

trong đó là lỗi tiêu chuẩn. Đây là một tuyên bố rất có ý nghĩa về cách liên quan đến . Biến điều này thành một khoảng tin cậy chỉ đơn giản là một nỗ lực để đơn giản hóa kết quả này cho một người không quá quen thuộc với các bản phân phối bình thường. Điều đó cũng không chỉ để nói rằng nó chỉ là một công cụ cho những người không biết về các bản phân phối bình thường; ví dụ, bootstrap phần trăm là một công cụ để tóm tắt lỗi giữa công cụ ước tính và tham số thực khi phân phối lỗi này có thể không phải là Gaussian.sep pp^p


2

Khoảng tin cậy không chỉ hữu ích, mà còn cần thiết trong một số lĩnh vực, chẳng hạn như vật lý. Thật không may, sự ồn ào nhất liên quan đến các TCTD đến từ những người Bayes bị cuốn vào các cuộc tranh luận giả với Người thường xuyên, thường là trong bối cảnh "khoa học" xã hội và các ngành khoa học khác.

Giả sử rằng tôi đo một lượng trong Vật lý, chẳng hạn như điện tích. Tôi sẽ luôn cung cấp cho nó số đo độ không chắc chắn của giá trị, thường là độ lệch chuẩn. Vì, trong các lỗi Vật lý thường là Gaussian, điều này được dịch trực tiếp sang CI. Tuy nhiên, khi các lỗi không phải là Gaussian, nó sẽ hơi phức tạp, một số tích phân cần phải được đánh giá, v.v. Mặc dù vậy, không có gì quá bí truyền.

Dưới đây là một bản trình bày ngắn gọn về CI trong vật lý hạt và định nghĩa:

tuyên bố định lượng về tỷ lệ các khoảng thời gian như vậy sẽ chứa giá trị thực của tham số trong một số lượng lớn các thử nghiệm lặp lại

Lưu ý rằng trong Vật lý, "các thí nghiệm lặp lại" thường có nghĩa đen: nó giả định rằng bạn thực sự có thể lặp lại các thí nghiệm trong bài báo và thực sự sẽ quan sát phân số đó. Vì vậy, CI gần như có nghĩa đen đối với bạn và chỉ là một cách để thể hiện thông tin về độ không đảm bảo của phép đo. Đó không phải là một thử nghiệm suy nghĩ, không phải là ý kiến ​​chủ quan, không phải cảm nhận của bạn hoặc của tôi về khả năng, v.v. Đó là những gì bạn có thể nghĩ ra từ các thử nghiệm và những gì tôi có thể quan sát được khi tái tạo thử nghiệm của mình.


1

Chủ đề này đã nhanh chóng chuyển sang cuộc tranh luận Thường xuyên vs Bayes, và điều đó không dễ giải quyết. Toán học trong cả hai phương pháp đều vững chắc, vì vậy nó luôn đi theo sở thích triết học. Việc giải thích thường xuyên về xác suất là giới hạn tần suất tương đối của một sự kiện được chứng minh bằng luật mạnh của số lượng lớn; bất kể giải thích xác suất ưa thích của bạn là gì, tần suất tương đối của một sự kiện sẽ hội tụ đến xác suất của nó với xác suất 1.

Khoảng tin cậy thường xuyên thực sự khó diễn giải hơn khoảng tin cậy Bayes. Bằng cách coi một đại lượng chưa biết là một biến ngẫu nhiên, Bayes có thể khẳng định rằng một khoảng chứa số lượng đó với một số xác suất. Những người thường xuyên từ chối coi một số đại lượng là các biến ngẫu nhiên và bất kỳ phương trình nào chỉ chứa các hằng số chỉ có thể đúng hoặc sai. Vì vậy, khi ước tính một hằng số chưa biết, người thường xuyên phải ràng buộc chúng với một khoảng RANDOM để liên quan đến xác suất. Thay vì một khoảng chứa một biến ngẫu nhiên với một số xác suất, một phương thức thường xuyên tạo ra nhiều khoảng có thể khác nhau, một số trong đó chứa hằng số chưa biết. Nếu xác suất bảo hiểm cao một cách hợp lý, đó là một bước nhảy vọt hợp lý để khẳng định rằng một khoảng cụ thể chứa hằng số chưa biết (lưu ý, không phải là "

Một người Bayes sẽ chùn bước trước một bước nhảy vọt về niềm tin cũng như một người thường xuyên chùn bước trong việc coi bất kỳ số lượng không xác định nào là một biến ngẫu nhiên. Phương pháp xây dựng Neyman thường xuyên trong thực tế đã phơi bày một vấn đề đáng xấu hổ với những bước nhảy vọt như vậy. Nếu không chủ động ngăn chặn nó (xem Feldman và anh em họ, 1997 cho một cách tiếp cận), các kết quả hiếm gặp có thể tạo ra khoảng tin cậy EMPTY cho một tham số phân phối. Một bước nhảy vọt của đức tin sẽ rất vô lý! Tôi đã thấy một vài người Bayes sử dụng ví dụ đó để chế giễu các phương pháp thường xuyên, trong khi những người thường xuyên trả lời với "tôi vẫn nhận được một khoảng thời gian chính xác trong hầu hết thời gian và không đưa ra các giả định sai." Tôi sẽ chỉ ra rằng sự bế tắc của người Bayes / người thường xuyên không quan trọng đối với hầu hết những người áp dụng phương pháp của họ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.