Bayesian vs thường xuyên diễn giải xác suất


37

Ai đó có thể đưa ra một danh sách tốt về sự khác biệt giữa Bayesian và cách tiếp cận thường xuyên để xác suất?

Từ những gì tôi hiểu:

Quan điểm của những người thường xuyên là dữ liệu là một mẫu ngẫu nhiên có thể lặp lại (biến ngẫu nhiên) với tần suất / xác suất cụ thể (được định nghĩa là tần số tương đối của một sự kiện khi số lượng thử nghiệm tiến tới vô cùng). Các thông số cơ bản và xác suất không thay đổi trong suốt quá trình lặp lại này và rằng sự thay đổi là do sự biến đổi trong và không phân phối xác suất (được cố định cho một sự kiện / quá trình nhất định).Xn

Quan điểm bayes là dữ liệu được cố định trong khi tần số / xác suất cho một sự kiện nhất định có thể thay đổi có nghĩa là các tham số của phân phối thay đổi. Trong thực tế, dữ liệu mà bạn nhận được sẽ thay đổi phân phối trước đó của một tham số được cập nhật cho từng bộ dữ liệu.

Đối với tôi có vẻ như cách tiếp cận thường xuyên là thực tế / logic hơn vì có vẻ hợp lý rằng các sự kiện có xác suất cụ thể và sự khác biệt là trong mẫu của chúng tôi.

Hơn nữa, hầu hết các phân tích dữ liệu từ các nghiên cứu thường được thực hiện bằng cách sử dụng phương pháp thường xuyên (ví dụ: khoảng tin cậy, kiểm tra giả thuyết với giá trị p, v.v.) vì nó dễ hiểu.

Tôi chỉ tự hỏi liệu có ai có thể cho tôi một bản tóm tắt nhanh chóng về cách giải thích của họ về cách tiếp cận Bayesian và người thường xuyên bao gồm các tương đương thống kê bayes của giá trị p thường xuyên và khoảng tin cậy hay không. Ngoài ra, các ví dụ cụ thể về nơi 1 phương pháp sẽ thích hợp hơn phương pháp kia được đánh giá cao.


1
Ở một số địa điểm, bạn sẽ bị một đám đông giận dữ tấn công nếu bạn nói rằng cách tiếp cận thường xuyên đối với suy luận thống kê là thực tế hơn. (OK, có thể có một số cường điệu trong tuyên bố đó.) Tôi không đồng ý rằng khoảng tin cậy dễ hiểu hơn khoảng xác suất sau. (Dù sao, xem câu trả lời của tôi dưới đây tôi nghĩ rằng nó được thẳng vào bản chất của vấn đề này, mặc dù không có toán học ngoài biết gì. là.)1/2
Michael Hardy

@DilipSarwate ay, tôi sẽ ghi nhớ điều đó cho lần sau. nhưng có vẻ như tôi đã nhận được một vài câu trả lời hay trong lần này vì vậy có lẽ tôi sẽ cố gắng kết thúc ở đây: D
BYS2

Câu trả lời:


27

Theo cách tiếp cận thường xuyên , người ta khẳng định rằng ý nghĩa duy nhất trong đó xác suất có ý nghĩa là giá trị giới hạn của số lần thành công trong một chuỗi các thử nghiệm, nghĩa là

p=limnkn

Trong đó là số lần thành công và là số lần thử. Cụ thể, không có ý nghĩa gì khi liên kết phân phối xác suất với một tham số .nkn

Ví dụ: hãy xem xét các mẫu từ phân phối Bernoulli với tham số (nghĩa là chúng có giá trị 1 với xác suất và 0 với xác suất ). Chúng ta có thể định nghĩa tỷ lệ thành công mẫu p p 1 - pX1,,Xnpp1p

p^= =X1++Xnn

và nói về việc phân phối điều kiện dựa trên giá trị của , nhưng không có nghĩa là đảo ngược câu hỏi và bắt đầu nói về phân phối xác suất của điều kiện trên giá trị quan sát của . Cụ thể, điều này có nghĩa là khi chúng ta tính toán khoảng tin cậy, chúng ta hiểu các đầu của khoảng tin cậy là các biến ngẫu nhiên và chúng ta nói về "xác suất khoảng đó bao gồm tham số thực", chứ không phải là "xác suất của tham số đó là trong khoảng tin cậy ". pp pp^ppp^

Theo cách tiếp cận Bayes , chúng tôi giải thích các phân phối xác suất là định lượng sự không chắc chắn của chúng tôi về thế giới. Cụ thể, điều này có nghĩa là bây giờ chúng ta có thể nói một cách có ý nghĩa về phân phối xác suất của các tham số, vì mặc dù tham số đã được cố định, kiến ​​thức về giá trị thực của nó có thể bị hạn chế. Trong ví dụ trên, chúng ta có thể đảo ngược phân phối xác suất bằng luật Bayes, để đưa raf(p^|p)

f(p|p^)sau= =f(p^|p)f(p^)tỉ lệ giống nhauf(p)trước

Điều khó khăn là chúng tôi phải đưa phân phối trước vào phân tích của mình - điều này phản ánh niềm tin của chúng tôi về giá trị của trước khi nhìn thấy các giá trị thực tế của . Vai trò của ưu tiên thường bị chỉ trích trong cách tiếp cận thường xuyên, vì người ta cho rằng nó đưa tính chủ quan vào thế giới xác suất khắc khổ và đối tượng khác.pXtôi

Theo cách tiếp cận Bayes, người ta không còn nói về các khoảng tin cậy, mà thay vào đó là các khoảng tin cậy, có cách giải thích tự nhiên hơn - với khoảng tin cậy 95%, chúng ta có thể chỉ định xác suất 95% rằng tham số nằm trong khoảng.


6
Mặt khác, một chỉ trích về cách tiếp cận thường xuyên là nó không vuông với cách mọi người nghĩ về xác suất. Hãy xem xét cách mọi người nói về "xác suất" của các sự kiện một lần như sự tuyệt chủng của khủng long hay "xác suất" của "những điều chắc chắn" như mặt trời mọc vào ngày mai ...

14
Cũng có thể tốt khi đề cập rằng khoảng cách giữa các phương pháp tiếp cận thường xuyên và Bayes gần như không lớn ở mức độ thực tế: bất kỳ phương pháp thường xuyên nào tạo ra kết quả hữu ích và tự thống nhất thường có thể được đưa ra một cách giải thích Bayes và ngược lại . Cụ thể, việc lấy lại một phép tính thường xuyên theo thuật ngữ Bayes thường mang lại một quy tắc để tính toán hậu thế được đưa ra trước một số cụ thể . Sau đó, người ta có thể hỏi "Chà, đó có thực sự là một lý do hợp lý để giả định không?"
Ilmari Karonen

Cảm ơn bạn cho câu trả lời này, nó phù hợp với sự hiểu biết chung của tôi. Tuy nhiên, tôi đã tự hỏi nếu bạn có thể làm rõ một điều, làm thế nào bạn tìm thấy xác suất của tỷ lệ thành công dữ liệu / mẫu (f (p-hat)) trong công thức luật của Baye? Tôi đã đọc qua một số ví dụ hoạt động và tôi thường hiểu làm thế nào để lấy được f (p-hat | p) và f (p) trước nhưng f (p-hat) cho đến nay. Nếu bạn có một số liên kết đến một số tài nguyên thì điều đó thật tuyệt vời: D. Cảm ơn!
BYS2

@IlmariKaronen. Ok, bạn có nói rằng nếu tôi có một nghiên cứu tạo ra kết quả nhất định được biểu thị dưới dạng khoảng tin cậy, tôi có thể lấy lại dữ liệu và thực hiện phân tích bayesian không? và kết quả sẽ ít nhiều phù hợp?
BYS2

Những gì @Karonen nói không hoàn toàn chính xác. Hai kỹ thuật thường xuyên phổ biến nhất là ước tính điểm (thường là ước tính khả năng tối đa) và kiểm tra giả thuyết, và không thực sự có thể được đưa ra một cách giải thích Bayes tự nhiên.
Jules

20

Bạn nói đúng về cách giải thích của bạn về xác suất thường xuyên: tính ngẫu nhiên trong thiết lập này chỉ là do lấy mẫu không đầy đủ. Từ quan điểm của Bayes, xác suất của chủ quan là "chủ quan", theo đó chúng phản ánh sự không chắc chắn của một tác nhân về thế giới. Thật không đúng khi nói rằng các tham số của bản phân phối "thay đổi". Vì chúng tôi không có thông tin đầy đủ về các tham số, sự không chắc chắn của chúng tôi sẽ thay đổi khi chúng tôi thu thập thêm thông tin.

Cả hai cách hiểu đều hữu ích trong các ứng dụng, và cái nào hữu ích hơn tùy thuộc vào tình huống. Bạn có thể xem blog của Andrew Gelman để biết ý tưởng về các ứng dụng Bayes. Trong nhiều tình huống mà người Bayes gọi là "linh mục" Những người thường xuyên gọi là "chính quy hóa", và vì vậy (theo quan điểm của tôi), sự phấn khích có thể rời khỏi phòng khá nhanh. Trên thực tế, theo định lý Bernstein-von Mises, suy luận Bayes và Thường xuyên thực sự tương đương với nhau theo các giả định khá yếu (mặc dù đáng chú ý là định lý thất bại đối với các phân phối vô hạn). Bạn có thể tìm thấy một loạt các tài liệu tham khảo về điều này ở đây .

Vì bạn đã yêu cầu giải thích: Tôi nghĩ rằng quan điểm Thường xuyên có ý nghĩa rất lớn khi mô hình hóa các thí nghiệm khoa học như nó được thiết kế để làm. Đối với một số ứng dụng trong học máy hoặc để mô hình hóa lý luận quy nạp (hoặc học tập), xác suất Bayes có ý nghĩa hơn đối với tôi. Có nhiều tình huống trong đó mô hình hóa một sự kiện với xác suất "đúng" cố định có vẻ không hợp lý.

Đối với một ví dụ về đồ chơi quay trở lại Laplace , hãy xem xét khả năng mặt trời mọc vào ngày mai. Từ quan điểm Thường xuyên, chúng ta phải đặt ra một cái gì đó giống như vô tận - nhiều vũ trụ để xác định xác suất. Là người Bayes, chỉ có một vũ trụ (hoặc ít nhất, không cần nhiều). Sự không chắc chắn của chúng ta về mặt trời mọc bị đè bẹp bởi niềm tin rất mạnh mẽ trước đó của chúng ta rằng nó sẽ mọc lại vào ngày mai.


17

Giải thích xác suất Bayes là một cách giải thích mức độ niềm tin.

Một người Bayes có thể nói rằng xác suất có sự sống trên Sao Hỏa một tỷ năm trước là .1/2

Một người thường xuyên sẽ từ chối gán một xác suất cho đề xuất đó. Đó không phải là điều có thể nói là đúng trong một nửa số trường hợp, vì vậy người ta không thể gán xác suất .1/2


2
Có lẽ không có nơi nào tốt hơn để suy ngẫm về những hạn chế của cách tiếp cận thường xuyên hẹp hơn so với tính tổng quát của phương pháp Bayes (mở rộng logic) so với bài báo kinh điển của RT Cox.
viết

2
Cox cũng đã viết một cuốn sách về điều này, có tựa đề Đại số suy luận có thể xảy ra , được xuất bản bởi Johns Hopkins. @gwr
Michael Hardy

1
Ian Hacking đã nói rất rõ trong cuốn sách "Giới thiệu về xác suất và logic quy nạp". Ông nói: "Bayesian có thể gắn xác suất cá nhân, hoặc mức độ niềm tin, vào các đề xuất riêng lẻ. Nhà giáo lý học tần số cứng rắn nghĩ rằng xác suất chỉ có thể được gắn vào một loạt các sự kiện."
Nút840

9

Chris đưa ra một lời giải thích đơn giản tốt đẹp phân biệt chính xác hai cách tiếp cận xác suất. Nhưng lý thuyết xác suất thường xuyên không chỉ đơn thuần là nhìn vào tỷ lệ thành công dài. Chúng tôi cũng xem xét dữ liệu được lấy mẫu ngẫu nhiên từ một tham số phân phối và ước tính của phân phối, chẳng hạn như giá trị trung bình và phương sai bằng cách lấy một số loại trung bình nhất định của dữ liệu (ví dụ: đó là trung bình số học của các quan sát. với ước tính được gọi là phân phối mẫu.

Trong lý thuyết tần số, chúng tôi có thể hiển thị cho các tham số như giá trị trung bình được lấy bằng cách lấy trung bình từ các mẫu mà ước tính sẽ hội tụ đến tham số thực. Phân phối lấy mẫu được sử dụng để mô tả mức độ gần đúng của tham số đối với bất kỳ cỡ mẫu cố định n. Đóng được xác định bằng thước đo độ chính xác (ví dụ: lỗi bình phương trung bình).

Tại Chris chỉ ra cho bất kỳ tham số nào, chẳng hạn như Bayesian đính kèm phân phối xác suất trước đó trên đó. Sau đó, đưa ra quy tắc Bayes dữ liệu được sử dụng để tính toán phân phối sau cho tham số. Đối với Bayes, mọi suy luận về tham số đều dựa trên phân phối sau này.

Những người thường xuyên xây dựng các khoảng tin cậy là các khoảng của các giá trị hợp lý cho tham số. Cấu trúc của chúng dựa trên xác suất thường xuyên rằng nếu quy trình được sử dụng để tạo khoảng được lặp lại nhiều lần cho các mẫu độc lập, tỷ lệ các khoảng thực sự sẽ bao gồm giá trị thực của tham số sẽ ít nhất là ở mức độ tin cậy được xác định trước (ví dụ 95% ).

Bayes sử dụng phân phối posteriori cho tham số để xây dựng các khu vực đáng tin cậy. Đây chỉ là các vùng trong không gian tham số mà trên đó phân tích sau được tích hợp để có xác suất được chỉ định trước (ví dụ 0,95). Các khu vực đáng tin cậy được Bayesian hiểu là các khu vực có xác suất cao (ví dụ: xác định 0,95) được xác định trước bao gồm giá trị thực của tham số.


1
Các vùng đáng tin cậy được Bayesian hiểu là các vùng có xác suất cao (ví dụ: xác định 0,95) được xác định trước bao gồm giá trị thực của tham số . Làm thế nào là điều này có thể nếu tham số là một biến ngẫu nhiên?

@Procrastinator Được rồi, có lẽ bạn muốn tôi nói rằng nó chiếm tỷ lệ cao trong phân phối tham số. Nhưng nếu X là một biến ngẫu nhiên có phân phối f và chúng ta xây dựng một vùng đáng tin cậy cho nó thì vùng đó thể hiện xác suất rằng việc thực hiện biến ngẫu nhiên sẽ nằm trong vùng.
Michael R. Chernick

Tôi đồng ý với lời giải thích này. Điều quan trọng là phải làm rõ rằng việc nhận ra biến ngẫu nhiên không phải là giá trị thực của tham số.

@Procrastinator đó là một điểm thú vị mà bạn nêu ra. Tuy nhiên, sự hiểu biết của tôi về xác suất bayes là nhiều người Bayes đồng ý với các nhà thống kê cổ điển rằng có một giá trị TRUE duy nhất của tham số trong câu hỏi (nó cố định nhưng không xác định). Đó là sự không chắc chắn về tham số này được phân phối vì trạng thái kiến ​​thức không hoàn hảo của chúng tôi. Vì vậy, nếu bạn nghĩ về nó theo cách này, thì tuyên bố ban đầu của Michael Chernick là hợp lệ, bạn có nghĩ vậy không?
BYS2

2
θ0=1(1,100)

2

Từ quan điểm "thế giới thực", tôi tìm thấy một sự khác biệt lớn giữa "giải pháp" thường xuyên và cổ điển hoặc Bayes áp dụng cho ít nhất ba kịch bản chính. Sự khác biệt trong việc lựa chọn một phương pháp phụ thuộc vào việc bạn cần một giải pháp bị ảnh hưởng bởi xác suất dân số hay một giải pháp bị ảnh hưởng bởi xác suất cá nhân. Ví dụ dưới đây:

  1. Nếu có xác suất 5% rằng nam giới trên 40 tuổi sẽ chết trong một năm nhất định và yêu cầu thanh toán bảo hiểm nhân thọ, một công ty bảo hiểm có thể sử dụng tỷ lệ 5% DÂN SỐ để ước tính chi phí của mình, nhưng để nói rằng mỗi cá nhân nam trên 40 tuổi chỉ có 5% cơ hội tử vong ... là vô nghĩa ... Bởi vì 5% có xác suất chết 100% - đó là một cách tiếp cận thường xuyên. Ở cấp độ cá nhân, sự kiện xảy ra (xác suất 100%) hoặc không xảy ra (xác suất 0%) Tuy nhiên, dựa trên thông tin hạn chế này, không thể dự đoán các cá nhân có xác suất chết 100% và 5 % xác suất dân số "trung bình" là vô dụng ở cấp độ cá nhân.

  2. Lập luận trên cũng áp dụng như nhau đối với các vụ cháy trong các tòa nhà, đó là lý do tại sao các vòi phun nước được yêu cầu trong tất cả các tòa nhà trong dân cư.

  3. Cả hai đối số trên đều áp dụng như nhau đối với các lỗi hệ thống thông tin, thiệt hại hoặc "hack". Tỷ lệ dân số là vô dụng nên tất cả các hệ thống phải được bảo vệ.


2
Tôi không nhận ra cách tiếp cận thường xuyên trong bất kỳ trường hợp nào trong ba trường hợp này. Tất cả chúng dường như xoay quanh một hồi tưởng - và do đó vô dụng - khái niệm xác suất không được sử dụng trong các mô hình cổ điển. Chẳng hạn, khẳng định rằng "sự kiện này xảy ra ... hoặc không xảy ra" là đúng sự thật nhưng không liên quan đến xác suất.
whuber

0

Sự lựa chọn giải thích phụ thuộc vào câu hỏi. Nếu bạn muốn biết tỷ lệ cược trong trò chơi may rủi, giải thích cổ điển sẽ giải quyết vấn đề của bạn, nhưng dữ liệu thống kê là vô ích vì súc sắc công bằng không có bộ nhớ.

Nếu bạn muốn dự đoán một sự kiện trong tương lai dựa trên kinh nghiệm trong quá khứ, việc giải thích thường xuyên là chính xác và đầy đủ.

Nếu bạn không biết nếu một sự kiện trong quá khứ đã xảy ra và muốn đánh giá xác suất xảy ra, bạn phải lấy niềm tin trước đó, tức là những gì bạn đã biết về cơ hội sự kiện xảy ra và cập nhật niềm tin của bạn khi bạn có được dữ liệu mới.

Vì câu hỏi là về một mức độ niềm tin, và mỗi người có thể có một ý tưởng khác nhau về các linh mục, nên việc giải thích nhất thiết phải chủ quan, hay còn gọi là Bayes.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.