Có bất kỳ ví dụ nào trong đó khoảng tin cậy Bayes rõ ràng là kém hơn so với khoảng tin cậy thường xuyên


81

Một câu hỏi gần đây về sự khác biệt giữa sự tự tin và khoảng tin cậy đã khiến tôi bắt đầu đọc lại bài viết của Edwin Jaynes về chủ đề đó:

Jaynes, ET, 1976. `Khoảng tin cậy so với khoảng thời gian Bayes, 'trong các nền tảng của lý thuyết xác suất, suy luận thống kê và lý thuyết thống kê của khoa học, WL Harper và CA Hooker (chủ biên.), D. Reidel, Dordrecht, tr. 175; ( pdf )

Trong bản tóm tắt, Jaynes viết:

... Chúng tôi trình bày các giải pháp Bayes và chính thống cho sáu vấn đề thống kê phổ biến liên quan đến khoảng tin cậy (bao gồm các bài kiểm tra quan trọng dựa trên cùng một lý do). Trong mọi trường hợp, chúng tôi thấy tình huống hoàn toàn ngược lại, tức là phương pháp Bayes dễ áp ​​dụng hơn và mang lại kết quả tương tự hoặc tốt hơn. Thật vậy, kết quả chính thống chỉ thỏa đáng khi họ đồng ý chặt chẽ (hoặc chính xác) với kết quả Bayes. Không có ví dụ trái ngược đã được sản xuất.

(nhấn mạnh của tôi)

Bài báo được xuất bản năm 1976, vì vậy có lẽ mọi thứ đã chuyển sang. Câu hỏi của tôi là, có những ví dụ trong đó khoảng tin cậy thường xuyên rõ ràng vượt trội hơn khoảng tin cậy Bayes (theo thách thức được thực hiện bởi Jaynes)?

Các ví dụ dựa trên các giả định trước không chính xác không được chấp nhận vì chúng không nói gì về tính nhất quán bên trong của các phương pháp khác nhau.


21
Theo các giả định khá nhẹ, (a) các thủ tục ước tính Bayes được chấp nhận và (b) tất cả, hoặc gần như tất cả, các ước lượng được chấp nhận là Bayesian đối với một số trước. Do đó, không có gì ngạc nhiên khi khoảng tin cậy của Bayes "mang lại kết quả tương tự hoặc tốt hơn." Lưu ý rằng các phát biểu của tôi (a) và (b) là một phần của phân tích thường xuyên về lý thuyết quyết định hợp lý. Trường hợp những người thường xuyên thành lập công ty với Bayes không vượt qua toán học hay thậm chí là các thủ tục thống kê, nhưng liên quan đến ý nghĩa, sự biện minh và sử dụng đúng trước một vấn đề cụ thể.
whuber

1
Vì vậy, nhận xét trên có ngụ ý rằng câu trả lời cho câu hỏi của OP là 'Không có ví dụ nào có thể được xây dựng.'? Hoặc có lẽ, một số ví dụ bệnh lý tồn tại mà vi phạm các giả định đằng sau sự chấp nhận?

1
@Srikant: Câu hỏi hay. Tôi nghĩ rằng nơi để bắt đầu điều tra là một tình huống có những người ước tính không chấp nhận Bayes - không nhất thiết phải là một "bệnh lý", nhưng ít nhất là một cơ hội cung cấp một số cơ hội để tìm ra một "ví dụ trái ngược".
whuber

2
Tôi sẽ thêm một số sự rõ ràng vào "các giả định trước không chính xác ..." bằng cách nói rằng câu trả lời Bayes và câu trả lời thường xuyên phải sử dụng cùng một thông tin , nếu không, bạn chỉ đang so sánh câu trả lời với hai câu hỏi khác nhau. Câu hỏi tuyệt vời (+1 từ tôi)
xác suất

3
bệnh lý hay không, nó có thể là đầu tiên của loại hình này. Tôi rất muốn xem ví dụ này, vì những "bệnh lý" này thường có yếu tố học tập tốt đối với họ
xác suất

Câu trả lời:


52

Tôi đã nói trước đó rằng tôi sẽ phải trả lời câu hỏi, vì vậy hãy đến đây ...

Jaynes đã hơi nghịch ngợm trong bài báo của mình rằng khoảng tin cậy thường xuyên không được định nghĩa là một khoảng mà chúng ta có thể mong đợi giá trị thực của thống kê nằm ở xác suất cao (được chỉ định), do đó, không có gì đáng ngạc nhiên khi mâu thuẫn phát sinh nếu chúng được giải thích như thể chúng là. Vấn đề là đây thường là cách sử dụng các khoảng tin cậy trong thực tế, vì một khoảng có khả năng cao chứa giá trị thực (dựa trên những gì chúng ta có thể suy ra từ mẫu dữ liệu của mình) là những gì chúng ta thường muốn.

Vấn đề quan trọng đối với tôi là khi một câu hỏi được đặt ra, tốt nhất là có câu trả lời trực tiếp cho câu hỏi đó. Việc khoảng tin cậy Bayes có tệ hơn khoảng tin cậy thường xuyên hay không phụ thuộc vào câu hỏi thực sự được hỏi. Nếu câu hỏi được hỏi là:

(a) "Hãy cho tôi một khoảng thời gian mà giá trị thực của thống kê nằm với xác suất p", sau đó nó xuất hiện một người thường xuyên thực sự không thể trả lời trực tiếp câu hỏi đó (và điều này đưa ra loại vấn đề mà Jaynes thảo luận trong bài báo của mình), nhưng một Bayesian có thể, đó là lý do tại sao khoảng tin cậy Bayes vượt trội hơn khoảng tin cậy thường xuyên trong các ví dụ được đưa ra bởi Jaynes. Nhưng đây chỉ là vì nó là "câu hỏi sai" cho người thường xuyên.

(b) "Hãy cho tôi một khoảng thời gian, trong đó, thí nghiệm được lặp lại nhiều lần, giá trị thực của thống kê sẽ nằm trong p * 100% các khoảng thời gian như vậy" thì câu trả lời thường xuyên chỉ là những gì bạn muốn. Bayesian cũng có thể đưa ra câu trả lời trực tiếp cho câu hỏi này (mặc dù nó có thể không chỉ đơn giản là khoảng tin cậy rõ ràng). Nhận xét của Whuber về câu hỏi cho thấy đây là trường hợp.

Vì vậy, về cơ bản, đó là một vấn đề xác định chính xác câu hỏi và đặt câu trả lời đúng. Nếu bạn muốn đặt câu hỏi (a) thì hãy sử dụng khoảng tin cậy Bayes, nếu bạn muốn đặt câu hỏi (b) thì hãy sử dụng khoảng tin cậy thường xuyên.


2
Nói tốt, đặc biệt là về câu hỏi mà một CI thực sự trả lời. Tuy nhiên, trong bài viết của Jaynes, ông đã đề cập rằng các quy trình của CI (và hầu hết thường xuyên nhất) được thiết kế để hoạt động tốt "Về lâu dài" (ví dụ: bạn có thường xuyên thấy hoặc "đối với phân phối lớn không khoảng ... "các giả định trong các phương pháp thường xuyên?), nhưng có nhiều thủ tục như vậy có thể làm điều này. Tôi nghĩ rằng đây là nơi mà các kỹ thuật thường xuyên (nhất quán, thiên vị, hội tụ, v.v.) có thể được sử dụng để đánh giá các thủ tục Bayes khác nhau rất khó quyết định giữa. n
xác suất

1
"Jaynes đã hơi nghịch ngợm trong bài báo của mình ..." Tôi nghĩ rằng điểm mà Jaynes đang cố gắng đưa ra (hoặc điểm mà tôi đã lấy từ đó) là Khoảng tin cậy được sử dụng để trả lời câu hỏi a) trong một số lượng lớn các trường hợp (tôi sẽ suy đoán rằng bất cứ ai chỉ được đào tạo thường xuyên sẽ sử dụng CI để trả lời câu hỏi a) và họ sẽ nghĩ rằng họ là một câu trả lời thường xuyên thích hợp)
xác suất

2
vâng, bởi "một chút nghịch ngợm" Tôi chỉ có nghĩa là Jaynes đã đưa ra quan điểm theo cách đối đầu khá sai lầm (nhưng cũng mang tính giải trí) (hoặc ít nhất đó là cách tôi đọc nó). Nhưng nếu anh ta không thì có lẽ sẽ không có tác động gì.
Dikran Marsupial

23

Đây là một ví dụ "xác thịt" được đưa ra trong một cuốn sách được viết bởi Larry Wasserman Tất cả các số liệu thống kê trên trang 216 ( 12.8 Điểm mạnh và điểm yếu của suy luận Bayes ). Về cơ bản, tôi cung cấp những gì Wasserman không có trong cuốn sách 1) một lời giải thích cho những gì đang thực sự xảy ra, thay vì một dòng vứt đi; 2) câu trả lời thường xuyên cho câu hỏi mà Wasserman thuận tiện không đưa ra; và 3) một minh chứng rằng độ tin cậy tương đương được tính bằng cách sử dụng cùng một thông tin phải chịu cùng một vấn đề.

Trong ví dụ này, ông nêu tình huống sau đây

  1. Một quan sát, X, với phân phối Lấy mẫu:(X|θ)N(θ,1)
  2. Phân phối trước của (anh ta thực sự sử dụng chung cho phương sai, nhưng sơ đồ của anh ta chuyên về )(θ)N(0,1)τ2τ2=1

Sau đó, ông cho thấy rằng, sử dụng khoảng tin cậy 95% Bayes trong thiết lập này cuối cùng có phạm vi bảo hiểm thường xuyên 0% khi giá trị thực của trở nên lớn tùy ý. Chẳng hạn, anh ta cung cấp một biểu đồ về phạm vi bảo hiểm (p218) và kiểm tra bằng mắt, khi giá trị thực của là 3, phạm vi bảo hiểm là khoảng 35%. Sau đó, anh tiếp tục nói:θθ

... Chúng ta nên kết luận gì từ tất cả những điều này? Điều quan trọng là phải hiểu rằng các phương pháp thường xuyên và Bayes đang trả lời các câu hỏi khác nhau. Để kết hợp niềm tin trước với dữ liệu theo cách nguyên tắc, hãy sử dụng suy luận Bayes. Để xây dựng các quy trình với hiệu suất dài hạn được đảm bảo, chẳng hạn như khoảng tin cậy, hãy sử dụng các phương pháp thường xuyên ... (tr217)

Và sau đó tiếp tục mà không có bất kỳ sự giải thích hay giải thích nào về lý do tại sao phương pháp Bayes thực hiện quá tệ. Hơn nữa, anh ta không đưa ra câu trả lời từ cách tiếp cận thường xuyên, chỉ là một tuyên bố rộng rãi về "dài hạn" - một chiến thuật chính trị cổ điển (nhấn mạnh điểm mạnh của bạn + điểm yếu của người khác, nhưng không bao giờ so sánh như muốn).

Tôi sẽ chỉ ra cách giải quyết vấn đề như đã nêu theo thuật ngữ thường xuyên / chính thống, và sau đó chỉ ra rằng kết quả sử dụng khoảng tin cậy cho câu trả lời chính xác giống như câu trả lời của Bayes . Do đó, bất kỳ khiếm khuyết nào trong Bayes (thực tế hoặc nhận thức) không được sửa chữa bằng cách sử dụng khoảng tin cậy.τ=1

Được rồi, ở đây đi. Câu hỏi đầu tiên tôi đặt ra là trạng thái kiến ​​thức nào được mô tả bởi ? Nếu một người "không biết gì" về , thì cách thích hợp để diễn đạt điều này là . Bây giờ giả sử rằng chúng tôi đã dốt nát, và chúng tôi quan sát , độc lập với . Hậu thế của chúng ta cho sẽ là gì?θN(0,1)θp(θ)1YN(θ,1)Xθ

p(θ|Y)p(θ)p(Y|θ)exp(12(Yθ)2)

Do đó . Điều này có nghĩa là phân phối trước được đưa ra trong ví dụ của Wassermans, tương đương với việc đã quan sát một bản sao iid của bằng . Phương pháp frequentist không thể đối phó với một trước, nhưng nó có thể được coi là đã làm 2 quan sát từ sự phân bố lấy mẫu, một bằng , và một bằng . Cả hai vấn đề là hoàn toàn tương đương, và chúng tôi thực sự có thể đưa ra câu trả lời thường xuyên cho câu hỏi.(θ|Y)N(Y,1)X00X

Vì chúng tôi đang xử lý một phân phối bình thường với phương sai đã biết, giá trị trung bình là một thống kê đủ để xây dựng khoảng tin cậy cho . Giá trị trung bình bằng và có phân phối lấy mẫuθx¯=0+X2=X2

(x¯|θ)N(θ,12)

Do đó, CI được đưa ra bởi:(1α)%

12X±Zα/212

Nhưng, bằng cách sử dụng Kết quả của ví dụ 12.8 cho Wasserman, anh ta cho thấy khoảng thời gian đáng tin cậy sau cho được đưa ra bởi:(1α)%θ

cX±cZα/2
.

Trong đó . Do đó, việc cắm giá trị tại sẽ cho và khoảng tin cậy trở thành:c=τ21+τ2τ2=1c=12

12X±Zα/212

Mà chính xác giống như khoảng tin cậy! Vì vậy, bất kỳ khiếm khuyết trong phạm vi bảo hiểm được thể hiện bằng phương pháp Bayes, không được sửa chữa bằng cách sử dụng khoảng tin cậy thường xuyên! [Nếu người thường xuyên chọn bỏ qua ưu tiên, thì để so sánh công bằng, Bayes cũng nên bỏ qua điều này trước và sử dụng sự thiếu hiểu biết trước và hai khoảng thời gian sẽ vẫn bằng nhau - cả ].p(θ)1X±Zα/2)

Vậy cái quái gì đang diễn ra ở đây? Vấn đề về cơ bản là một trong những sự không mạnh mẽ của phân phối lấy mẫu thông thường. bởi vì vấn đề tương đương với việc đã quan sát một bản sao iid, . Nếu bạn đã quan sát , thì điều này cực kỳ khó xảy ra nếu giá trị thực là (xác suất khi là 0,000032). Điều này giải thích tại sao phạm vi bảo hiểm rất tệ đối với các "giá trị thực" lớn, bởi vì chúng thực sự làm cho việc quan sát ngầm có trong một ngoại lệ trước đó . Trong thực tế, bạn có thể chỉ ra rằng ví dụ này về cơ bản tương đương với việc chỉ ra rằng trung bình số học có hàm ảnh hưởng không giới hạn.X=00θ=4X0θ=4

Sự khái quát. Bây giờ một số người có thể nói "nhưng bạn chỉ xem xét , đây có thể là trường hợp đặc biệt". Điều này không đúng: mọi giá trị của đều có thể được hiểu là quan sát các bản sao iid của đều bằng , ngoài của câu hỏi. Khoảng tin cậy sẽ có các thuộc tính bảo hiểm "xấu" tương tự cho lớn . Nhưng điều này trở nên ngày càng khó xảy ra nếu bạn tiếp tục quan sát các giá trị (và không một người có lý trí nào sẽ tiếp tục lo lắng về lớn khi bạn tiếp tục nhìn thấy ).τ=1τ2=1N (N=0,1,2,3,)NX0Xθ0θ0


1
Cảm ơn đã phân tích. AFAICS đây chỉ là một ví dụ về một vấn đề gây ra bởi một giả định trước đây (không chính xác) và không nói gì về tính nhất quán bên trong của phương pháp Bayes?
Dikran Marsupial

1
Không, ưu tiên không nhất thiết là không chính xác, trừ khi người ta không thực sự quan sát giá trị trước khi tiến hành thử nghiệm (hoặc có được một số kiến ​​thức tương đương). Về cơ bản, điều đó có nghĩa là, khi thật trở nên lớn tùy ý, xác suất quan sát các quan sát ngầm này trở nên nhỏ tùy ý (như lấy "mẫu không may"). 0θ
xác suất

bạn có thể nhìn thấy bằng cách ghi nhận rằng mẫu bao gồm một quan sát tại và một số khác tại . là cố định (vì nó đã được quan sát), nhưng sẽ "gần" với trong hầu hết các trường hợp. Vì vậy, khi trở nên lớn, trung bình mẫu càng ngày càng xa khỏi cả và và do phương sai được cố định, độ rộng của CI được cố định, do đó cuối cùng nó sẽ không chứa hoặc , và do đó không ở gần một trong hai giá trị có khả năng của (đối với một trong số chúng là ngoại lệ khi chúng cách xa nhau, đối với cố định )0X0XθθX0X0θθ
xác suất

10

Keith Winstein,

EDIT: Chỉ cần làm rõ, câu trả lời này mô tả ví dụ được đưa ra trong Keith Winstein Trả lời về Vua với trò chơi thống kê tàn khốc. Cả hai câu trả lời Bayes và tần số đều sử dụng cùng một thông tin, đó là bỏ qua thông tin về số lượng tiền xu công bằng và không công bằng khi xây dựng các khoảng thời gian. Nếu thông tin này không bị bỏ qua, người thường xuyên nên sử dụng Khả năng phân tích Beta-Binomial tích hợp làm phân phối lấy mẫu trong việc xây dựng khoảng tin cậy, trong trường hợp đó, khoảng tin cậy Clopper-Pearson không phù hợp và cần phải sửa đổi. Một điều chỉnh tương tự sẽ xảy ra trong giải pháp Bayes.

EDIT: Tôi cũng đã làm rõ việc sử dụng đầu tiên của clopper Pearson Interval.

EDIT: than ôi, alpha của tôi là cách sai, và khoảng thời gian pearson clopper của tôi là không chính xác. Lời xin lỗi khiêm tốn nhất của tôi đến @whuber, người đã chỉ ra điều này một cách chính xác, nhưng ban đầu tôi không đồng ý và bỏ qua.

CI sử dụng phương pháp Clopper Pearson rất tốt

Nếu bạn chỉ nhận được một quan sát, thì Clopper Pearson Interval có thể được đánh giá một cách phân tích. Giả sử đồng xu xuất hiện dưới dạng "thành công" (người đứng đầu) bạn cần chọn sao choθ

[Pr(Bi(1,θ)X)α2][Pr(Bi(1,θ)X)α2]

Khi các xác suất này là và , do đó Clopper Pearson CI ngụ ý rằng (và luôn luôn đúng ) khi . Khi các xác suất này là và , do đó Clopper Pearson CI ngụ ý rằng hoặc khi . Vì vậy, đối với CI 95%, chúng tôi nhận được khi vàX=1Pr(Bi(1,θ)1)=θPr(Bi(1,θ)1)=1θα21α2X=1X=0Pr(Bi(1,θ)0)=1Pr(Bi(1,θ)0)=1θ1θα2θ1α2X=0[0.025,1]X=1[0,0.975] khi .X=0

Do đó, một người sử dụng Clopper Pearson Confidence Interval sẽ không bao giờ bị chặt đầu. Khi quan sát khoảng, về cơ bản là toàn bộ không gian tham số. Nhưng khoảng CP đang làm điều này bằng cách cung cấp bảo hiểm 100% cho khoảng thời gian được cho là 95%! Về cơ bản, những người thường xuyên "gian lận" bằng cách đưa ra khoảng tin cậy 95% so với mức anh ta / cô ta được yêu cầu đưa ra (mặc dù ai sẽ không gian lận trong tình huống như vậy? Nếu là tôi, tôi sẽ đưa ra toàn bộ [0, 1] khoảng). Nếu nhà vua yêu cầu CI chính xác 95%, phương pháp thường xuyên này sẽ thất bại bất kể điều gì thực sự xảy ra (có lẽ là một phương pháp tốt hơn tồn tại?).

Điều gì về khoảng thời gian Bayes? (cụ thể là Khoảng thời gian Bayesian Desiority (HPD) cao nhất)

Bởi vì chúng tôi biết một tiên nghiệm mà cả đầu và đuôi có thể xuất hiện, đồng phục trước là một lựa chọn hợp lý. Điều này mang lại sự phân phối sau . Bây giờ, tất cả những gì chúng ta cần làm bây giờ là tạo một khoảng với xác suất sau 95%. Tương tự như clopper pearson CI, phân phối Cummulation Beta cũng được phân tích ở đây, do đó và đặt các giá trị này thành 0.95 sẽ cho khi và khi . Vì vậy, hai khoảng đáng tin cậy là(θ|X)Beta(1+X,2X)Pr(θθe|x=1)=1(θe)2Pr(θθe|x=0)=1(1θe)2θe=0.050.224X=1θe=10.050.776X=0(0,0.776) khi và khiX=0(0.224,1)X=1

Do đó, Bayes sẽ bị chặt đầu trong khoảng thời gian đáng tin cậy HPD của anh ta trong trường hợp khi anh ta nhận được đồng tiền xấu đồng xu xấu xuất hiện ở đuôi sẽ xảy ra với cơ hội .11012+1×1100

Quan sát đầu tiên, Khoảng thời gian Bayes nhỏ hơn khoảng tin cậy. Một điều nữa là Bayes sẽ gần với phạm vi bảo hiểm thực tế đã nêu, 95%, so với người thường xuyên. Trên thực tế, Bayesian chỉ gần với mức độ bao phủ 95% như người ta có thể gặp phải trong vấn đề này. Và ngược lại với tuyên bố của Keith, nếu chọn đồng tiền xấu, trung bình 10 người Bayes sẽ mất đầu (không phải tất cả trong số họ, vì đồng tiền xấu phải xuất hiện trong khoảng thời gian không chứa ). 0.1

Thật thú vị, nếu khoảng thời gian CP cho 1 lần quan sát được sử dụng lặp đi lặp lại (vì vậy chúng tôi có N khoảng thời gian như vậy, mỗi lần dựa trên 1 lần quan sát) và tỷ lệ thực sự là bất cứ thứ gì trong khoảng từ đến , thì tỷ lệ bao phủ của CI 95% sẽ luôn là 100 %, và không phải 95%! Điều này rõ ràng phụ thuộc vào giá trị thực của tham số! Vì vậy, đây là ít nhất một trường hợp trong đó việc sử dụng lặp lại khoảng tin cậy không dẫn đến mức độ tin cậy mong muốn.0.0250.975

Để trích dẫn khoảng tin cậy 95% chính hãng , thì theo định nghĩa , cần có một số trường hợp (tức là ít nhất một) khoảng thời gian quan sát không chứa giá trị thực của tham số . Nếu không, làm thế nào người ta có thể biện minh cho thẻ 95%? Nó sẽ không chỉ là một hợp lệ hoặc không hợp lệ để gọi nó là một khoảng 90%, 50%, 20% hoặc thậm chí 0%?

Tôi không thấy cách đơn giản chỉ ra "nó thực sự có nghĩa là 95% trở lên" mà không có giới hạn miễn phí là thỏa đáng. Điều này là do giải pháp toán học rõ ràng là toàn bộ không gian tham số và vấn đề là không đáng kể. giả sử tôi muốn có 50% CI? nếu nó chỉ giới hạn các phủ định sai thì toàn bộ không gian tham số là một CI hợp lệ chỉ sử dụng tiêu chí này.

Có lẽ một tiêu chí tốt hơn là (và đây là điều tôi tin là ẩn ý trong định nghĩa của Kieth) "càng gần 95% càng tốt, mà không phải dưới 95%". Khoảng thời gian Bayes sẽ có phạm vi bảo hiểm gần hơn 95% so với người thường xuyên (mặc dù không nhiều) và sẽ không đạt dưới 95% trong phạm vi bảo hiểm ( phạm vi bảo hiểm khi và phạm vi bảo hiểm khi ).100%X=0100×1012+9101012+1%>95%X=1

Cuối cùng, có vẻ hơi kỳ quặc khi yêu cầu một khoảng không chắc chắn, và sau đó đánh giá khoảng đó bằng cách sử dụng giá trị thực mà chúng ta không chắc chắn. Một so sánh "công bằng hơn", đối với cả khoảng tin cậy và khoảng tin cậy, đối với tôi có vẻ như sự thật của tuyên bố về sự không chắc chắn được đưa ra với khoảng đó .


Trong đoạn chính đầu tiên của bạn, bạn dường như đã nhầm lẫn và . Giá trị của 10 ^ 12 + 1 đến từ đâu? Bạn có ý gì khi "chặt đầu" ?? Văn bản này có vẻ như cần phải hiệu đính và sửa đổi. 1 - αα1α
whuber

α 1 - α1012 dành cho các đồng xu nghìn tỷ và 1 dành cho các đồng tiền không công bằng. Và tôi đã không nhầm lẫn và khoảng thời gian Clopper Pearson được liệt kê [ở đây] [1]α1α
xác suất

[xin lỗi typo] (đã sửa lỗi TeX) dành cho các đồng xu công bằng nghìn tỷ và 1 là cho các đồng tiền không công bằng, một trong số này là khoảng thô. đến xác suất có đồng tiền "xấu". Bị chặt đầu là hậu quả của việc đưa ra khoảng tin cậy sai. Và tôi đã không nhầm lẫn và khoảng Clopper Pearson được liệt kê trên trang wiki (khoảng tin cậy tỷ lệ nhị phân tìm kiếm). Điều xảy ra là một phần của khoảng CP là một tautology khi quan sát 1. Bên "lật" khi X = 1 đến X = 0, đó là lý do tại sao có và . α 1 - α 1 α1012α1α 1-qq1α21θθ
xác suất

Ý bạn là câu trả lời của @Keith Winstein?
whuber

@whuber, vâng tôi có nghĩa là câu trả lời của keith winstein.
xác suất

9

Vấn đề bắt đầu với câu của bạn:

Các ví dụ dựa trên các giả định trước không chính xác không được chấp nhận vì chúng không nói gì về tính nhất quán bên trong của các phương pháp khác nhau.

Vâng, làm thế nào để bạn biết trước của bạn là chính xác?

Lấy trường hợp suy luận Bayes trong phylogeny. Xác suất của ít nhất một thay đổi có liên quan đến thời gian tiến hóa (chiều dài nhánh t) theo công thức

P=1e43ut

với u là tỷ lệ thay thế.

Bây giờ bạn muốn tạo ra một mô hình của sự tiến hóa, dựa trên việc so sánh các chuỗi DNA. Về bản chất, bạn cố gắng ước tính một cây trong đó bạn cố gắng mô hình hóa mức độ thay đổi giữa các chuỗi DNA càng gần càng tốt. P ở trên là cơ hội của ít nhất một thay đổi trên một nhánh nhất định. Các mô hình tiến hóa mô tả cơ hội thay đổi giữa hai nucleotide bất kỳ và từ các mô hình tiến hóa này, hàm ước lượng được lấy, với p là tham số hoặc với t là tham số.

Bạn không có kiến ​​thức hợp lý và bạn đã chọn một căn hộ trước cho p. Điều này vốn ngụ ý giảm theo cấp số nhân trước t. (Sẽ còn rắc rối hơn nữa nếu bạn muốn đặt căn hộ trước t. Việc ngụ ý trước p phụ thuộc rất nhiều vào nơi bạn cắt phạm vi của t.)

Về lý thuyết, t có thể là vô hạn, nhưng khi bạn cho phép một phạm vi vô hạn, thì khu vực dưới hàm mật độ của nó cũng bằng vô hạn, vì vậy bạn phải xác định một điểm cắt cho trước. Bây giờ khi bạn chọn điểm cắt đủ lớn, không khó để chứng minh rằng cả hai đầu của khoảng tăng đáng tin cậy, và tại một thời điểm nhất định, giá trị thực không còn được chứa trong khoảng đáng tin cậy nữa. Trừ khi bạn có một ý tưởng rất tốt về các phương pháp trước, các phương pháp Bayes không được đảm bảo bằng hoặc vượt trội so với các phương pháp khác.

ref: Joseph Felsenstein: Suy ra Phylogenies, chương 18

Bên cạnh đó, tôi phát ốm vì cuộc cãi vã của Bayesian / Thường xuyên. Cả hai khuôn khổ khác nhau, và cũng không phải là Chân lý tuyệt đối. Các ví dụ cổ điển phương pháp Bayesian bất biến xuất phát từ tính toán xác suất, và không một người thường xuyên sẽ mâu thuẫn với chúng. Lập luận cổ điển chống lại các phương pháp Bayes bất biến liên quan đến sự lựa chọn tùy ý của một ưu tiên. Và linh mục hợp lý là chắc chắn có thể.

Tất cả nắm bắt được việc sử dụng đúng một trong hai phương pháp vào đúng thời điểm. Tôi đã thấy rất ít đối số / so sánh trong đó cả hai phương pháp đều được áp dụng chính xác. Giả định của bất kỳ phương pháp nào được đánh giá rất thấp và quá thường xuyên bị bỏ qua.

EDIT: để làm rõ, vấn đề nằm ở chỗ, ước tính dựa trên p khác với ước tính dựa trên t trong khung Bayes khi làm việc với các linh mục không thông tin (trong một số trường hợp là giải pháp khả thi duy nhất). Điều này không đúng trong khuôn khổ ML cho suy luận phát sinh gen. Đó không phải là vấn đề sai lầm trước đây, nó vốn là phương pháp.


3
Có thể quan tâm đến sự khác biệt giữa thống kê Bayes và thống kê thường xuyên mà không phải là một cuộc tranh cãi. Điều quan trọng là phải biết những sai sót cũng như lợi ích của phương pháp ưa thích. Tôi đặc biệt loại trừ các linh mục vì đó không phải là vấn đề với khuôn khổ, mà chỉ là vấn đề của GIGO. Điều tương tự áp dụng cho thống kê người thường xuyên, ví dụ bằng cách giả sử và phân phối tham số không chính xác cho dữ liệu. Đó sẽ không phải là một sự chỉ trích về phương pháp thường xuyên, chỉ là phương pháp cụ thể. BTW, tôi không có vấn đề cụ thể với các linh mục không đúng.
Dikran Marsupial

3
Ví dụ đầu tiên của Jaynes: Không một nhà thống kê nào trong suy nghĩ đúng đắn của anh ta sẽ sử dụng thử nghiệm F và thử nghiệm T trên tập dữ liệu đó. Ngoài ra, ông so sánh một thử nghiệm hai đuôi với P (b> a), đây không phải là giả thuyết được thử nghiệm. Vì vậy, ví dụ của anh ấy là không công bằng, mà về cơ bản anh ấy thừa nhận sau này. Bên cạnh đó, bạn không thể so sánh "các khung". Chúng ta đang nói về cái gì vậy? ML, REML, LS, phương pháp bị phạt, ...? khoảng cho các hệ số, số liệu thống kê, dự đoán, ...? Bạn cũng có thể hỏi liệu dịch vụ của Luther có tương đương hoặc vượt trội so với dịch vụ Shiite không. Họ nói về cùng một Thiên Chúa.
Joris Meys

Bạn có thể làm rõ dữ liệu của bạn là gì và các tham số bạn sẽ ước tính trong mô hình của bạn là gì? Tôi hơi bối rối về điểm này. Ngoài ra, bạn có thể vui lòng sử dụng $$ thay vì $ để căn giữa công thức không? Kích thước phông chữ rất nhỏ ngay bây giờ.

@Srikant: Ví dụ trong cuốn sách của Felsensteins dựa trên mô hình Jukes-Cantor để tiến hóa DNA. Dữ liệu là chuỗi DNA. Bạn muốn ước tính xác suất thay đổi trong chuỗi của mình, liên quan đến độ dài chi nhánh của bạn dựa trên công thức được đề cập. Độ dài nhánh được định nghĩa là thời gian tiến hóa: cơ hội thay đổi càng cao, thời gian trôi qua giữa tổ tiên và trạng thái hiện tại càng nhiều. Xin lỗi, nhưng tôi không thể tóm tắt toàn bộ lý thuyết đằng sau suy luận phát sinh gen ML và Bayes chỉ trong một bài. Felsenstein cần một nửa cuốn sách cho điều đó.
Joris Meys

Tôi đoán tôi chỉ muốn bạn làm rõ các biến trong phương trình của bạn là dữ liệu và biến nào là tham số vì nó không rõ ràng từ bài đăng của bạn, đặc biệt là với người như tôi là người ngoài cuộc. Tôi vẫn bị lạc nhưng tôi đoán tôi sẽ cần đọc cuốn sách để tìm hiểu thêm.

8

Khoảng tin cậy thường xuyên ràng buộc tỷ lệ dương tính giả (lỗi Loại I) và đảm bảo phạm vi bảo hiểm của chúng sẽ bị giới hạn dưới bởi tham số độ tin cậy, ngay cả trong trường hợp xấu nhất. Khoảng tin cậy Bayes không.

Vì vậy, nếu điều bạn quan tâm là dương tính giả và bạn cần ràng buộc chúng, thì khoảng tin cậy là cách tiếp cận mà bạn muốn sử dụng.

Ví dụ: giả sử bạn có một vị vua độc ác với một tòa án gồm 100 triều thần và triều thần và anh ta muốn chơi một trò chơi thống kê tàn nhẫn với họ. Nhà vua có một túi tiền nghìn tỷ đồng, cộng với một đồng xu không công bằng với xác suất đầu là 10%. Anh ấy sẽ thực hiện trò chơi sau đây. Đầu tiên, anh ta sẽ rút một đồng xu ngẫu nhiên từ túi.

Sau đó, đồng xu sẽ được chuyển xung quanh một căn phòng gồm 100 người và mỗi người sẽ buộc phải thực hiện một thử nghiệm trên đó, một cách riêng tư, và sau đó mỗi người sẽ đưa ra khoảng cách không chắc chắn 95% về khả năng họ nghĩ rằng xác suất của người đứng đầu đồng tiền là bao nhiêu.

Bất kỳ ai đưa ra một khoảng thể hiện dương tính giả - tức là một khoảng không bao gồm giá trị thực của xác suất đầu - sẽ bị chặt đầu.

Nếu chúng ta muốn biểu thị / a posteriori / hàm phân phối xác suất theo trọng số của đồng xu, thì dĩ nhiên một khoảng tin cậy là điều đó. Câu trả lời sẽ luôn là khoảng [0,5, 0,5] không phân biệt kết quả. Ngay cả khi bạn lật đầu 0 hoặc một đầu, bạn vẫn sẽ nói [0,5, 0,5] bởi vì rất nhiều khả năng nhà vua đã rút được một đồng xu công bằng và bạn có 1/1024 ngày nhận được mười đầu liên tiếp , hơn thế, nhà vua đã rút ra những đồng tiền không công bằng.

Vì vậy, đây không phải là một ý tưởng tốt cho các triều thần và cận thần sử dụng! Bởi vì khi rút tiền không công bằng, toàn bộ phòng (tất cả 100 người) sẽ sai và tất cả họ sẽ bị chặt đầu.

Trong thế giới này, nơi điều quan trọng nhất là dương tính giả, điều chúng ta cần là một sự đảm bảo tuyệt đối rằng tỷ lệ dương tính giả sẽ dưới 5%, bất kể đồng tiền nào được rút ra. Sau đó, chúng ta cần sử dụng khoảng tin cậy, như Blyth-Still-Casella hoặc Clopper-Pearson, hoạt động và cung cấp ít nhất 95% phạm vi bất kể giá trị thực của tham số, ngay cả trong trường hợp xấu nhất . Nếu mọi người sử dụng phương pháp này thay vào đó, thì bất kể đồng tiền nào được rút ra, vào cuối ngày, chúng tôi có thể đảm bảo rằng số người sai dự kiến ​​sẽ không quá năm.

Vì vậy, vấn đề là: nếu tiêu chí của bạn yêu cầu ràng buộc dương tính giả (hoặc tương đương, đảm bảo phạm vi bảo hiểm), bạn phải đi với một khoảng tin cậy. Đó là những gì họ làm. Khoảng tin cậy có thể là một cách trực quan hơn để thể hiện sự không chắc chắn, chúng có thể hoạt động khá tốt từ phân tích thường xuyên, nhưng chúng sẽ không cung cấp ràng buộc được bảo đảm về mặt tích cực giả mà bạn sẽ nhận được khi bạn yêu cầu.

(Tất nhiên nếu bạn cũng quan tâm đến những phủ định sai, bạn sẽ cần một phương pháp đảm bảo cho những điều đó nữa ...)


6
Thực phẩm cho suy nghĩ, tuy nhiên ví dụ cụ thể là không công bằng vì cách tiếp cận thường xuyên được phép xem xét chi phí tương đối của chi phí dương tính giả và âm tính giả, nhưng phương pháp Bayes thì không. Điều đúng đắn để làm theo lý thuyết quyết định của Bayes là đưa ra một khoảng [0,1] vì không có hình phạt nào liên quan đến phủ định sai. Do đó, trong một so sánh tương tự như các khung, không ai trong số những người Bayes sẽ bị chặt đầu. Vấn đề về ràng buộc dương tính giả mặc dù cho tôi một hướng để tìm câu trả lời cho thách thức của Jaynes.
Dikran Marsupial

1
Cũng lưu ý rằng nếu đồng xu được chọn thường xuyên được lật đủ, thì cuối cùng khoảng tin cậy Bayes sẽ tập trung vào tần suất chạy dài của các đầu đối với đồng tiền cụ thể thay vì trước đó. Nếu cuộc sống của tôi phụ thuộc vào khoảng thời gian chứa xác suất thực sự của một cái đầu, tôi sẽ không lật đồng xu chỉ một lần!
Dikran Marsupial

1
Mặc dù về vấn đề này nhiều hơn một chút, ví dụ này không hợp lệ vì tiêu chí được sử dụng để đo lường thành công không giống với câu hỏi được đặt ra bởi nhà vua. Vấn đề nằm ở chỗ "bất kể đồng tiền nào được rút ra", một mệnh đề được thiết kế để vượt qua bất kỳ phương pháp nào sử dụng kiến ​​thức trước đây về sự hiếm có của đồng xu thiên vị. Khi điều đó xảy ra, Bayesains cũng có thể rút ra giới hạn (ví dụ như giới hạn PAC) và nếu được hỏi sẽ làm như vậy, và tôi nghi ngờ câu trả lời sẽ giống như khoảng Clopper-Pearson. Để là một thử nghiệm công bằng, thông tin tương tự phải được cung cấp cho cả hai phương pháp.
Dikran Marsupial

1
Dikran, không cần phải có "Bayes" và "Người thường xuyên". Chúng không phải là trường phái triết học không tương thích mà người ta chỉ có thể đăng ký một! Chúng là những công cụ toán học có hiệu quả có thể được chứng minh trong khuôn khổ chung của lý thuyết xác suất. Quan điểm của tôi là NẾU yêu cầu là một ràng buộc tuyệt đối vào các giá trị dương bất kể giá trị thực của tham số, THÌ một khoảng tin cậy là phương pháp thực hiện điều đó. Tất nhiên tất cả chúng ta đều đồng ý về cùng một tiên đề xác suất và cùng một câu trả lời có thể được rút ra theo nhiều cách.
Keith Winstein

1
Câu hỏi như được đặt ra là một chút mơ hồ, bởi vì nó không nêu rõ những thông tin mà 100 người có. Họ có biết phân phối trong túi không? vì nếu họ làm, họ "thử nghiệm" là vô ích, người ta sẽ chỉ đưa ra khoảng hoặc thậm chí chỉ hai giá trị và (không đưa ra yêu cầu phủ sóng). Nếu chúng ta chỉ biết rằng có một túi tiền được rút ra, Bayes sẽ chỉ định toàn bộ khoảng [0,1], bởi vì dương tính giả là tất cả những gì quan trọng trong câu hỏi này (và kích thước của khoảng không). 0,1 0,5 100% 95%[0.1,0.5]0.10.5100%95%
xác suất

0

có những ví dụ trong đó khoảng tin cậy thường xuyên rõ ràng là vượt trội so với khoảng tin cậy Bayes (theo thách thức được thực hiện bởi Jaynes).

Dưới đây là một ví dụ : đúng bằng nhưng trước đó trên tập trung khoảng . Tôi đang làm thống kê cho một thử nghiệm lâm sàng và đo lường nguy cơ tử vong, vì vậy kết quả Bayes là một thảm họa, phải không? Nghiêm trọng hơn, "khoảng" Bayesian đáng tin cậy là gì? Nói cách khác: lựa chọn trước là gì? Có lẽ Jaynes đã đề xuất một cách tự động để chọn trước, tôi không biết!10 θ 1 θθ10θ1θ

Bernardo đề xuất một "tham chiếu trước" được sử dụng làm tiêu chuẩn cho truyền thông khoa học [và thậm chí là "khoảng tin cậy tham chiếu" ( Bernardo - khu vực đáng tin cậy khách quan )]. Giả sử đây là "cách tiếp cận Bayes", bây giờ câu hỏi là: khi nào thì một khoảng vượt trội hơn so với cách khác? Các thuộc tính thường xuyên của khoảng Bayes không phải lúc nào cũng tối ưu, nhưng các thuộc tính Bayes của "khoảng" thường xuyên
(nhân tiện, "khoảng" thường xuyên là gì?)


Tôi đang suy đoán, nhưng tôi nghi ngờ câu trả lời này bị ràng buộc để có được sự đối xử tương tự như những người khác có. Ai đó sẽ đơn giản lập luận rằng đây là một vấn đề về sự lựa chọn kém trước và không phải là một điểm yếu cố hữu của các thủ tục Bayes, mà theo tôi một phần cố gắng để trốn tránh một sự chỉ trích hợp lệ.
Đức hồng y

@ bình luận của hồng y là hoàn toàn đúng. Sự ưu tiên ở đây bị tắt bởi một trật tự cường độ, làm cho những lời chỉ trích rất yếu. Vấn đề thông tin trước cho người thường xuyên quá; những gì người ta biết một tiên nghiệm nên xác định, ví dụ như ước tính và thống kê kiểm tra nào được sử dụng. Nếu những lựa chọn này dựa trên thông tin sai theo một mức độ lớn, thì sẽ có kết quả kém; là Bayes hoặc thường xuyên không đi vào nó.
khách

"Ví dụ" của tôi không phải là phần quan trọng trong câu trả lời của tôi. Nhưng một sự lựa chọn tốt của trước là gì? Thật dễ dàng để tưởng tượng một ưu tiên có hỗ trợ chứa tham số thực sự nhưng sau đó thì không, vì vậy khoảng thời gian thường xuyên là vượt trội?
Stéphane Laurent

Hồng y và khách là chính xác, câu hỏi của tôi bao gồm rõ ràng "Các ví dụ dựa trên các giả định trước đó không chính xác không được chấp nhận vì họ không nói gì về tính nhất quán nội bộ của các phương pháp khác nhau." vì một mục đích tốt. Các thử nghiệm thường xuyên có thể dựa trên các giả định không chính xác cũng như các thử nghiệm Bayes (khung Bayes cho biết các giả định rõ ràng hơn); Câu hỏi là liệu khuôn khổ có điểm yếu. Ngoài ra, nếu giá trị thực là ở trước, nhưng không phải là sau, điều đó có nghĩa là các quan sát loại trừ khả năng giá trị thực là chính xác!
Dikran Marsupial

1
Có lẽ tôi nên chỉnh sửa câu trả lời của mình và xóa "ví dụ" của mình - đây không phải là phần nghiêm trọng trong câu trả lời của tôi. Câu trả lời của tôi chủ yếu là về ý nghĩa của "phương pháp" Bayes. Bạn gọi phương pháp Bayes là gì? Cách tiếp cận này đòi hỏi sự lựa chọn của một chủ quan trước hoặc nó sử dụng một cách tự động để chọn một trước không phù hợp? Trong trường hợp thứ hai, điều quan trọng là phải đề cập đến công việc của Bernardo. Thứ hai, bạn chưa xác định mối quan hệ "ưu việt" giữa các khoảng: khi nào bạn nói một khoảng là vượt trội so với khoảng khác?
Stéphane Laurent
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.