Dữ liệu được tạo trong khung Bayes như thế nào và bản chất của tham số tạo ra dữ liệu là gì?


9

Tôi đã cố gắng tìm hiểu lại các số liệu thống kê của Bayes (mỗi lần tôi nghĩ cuối cùng tôi đã nhận được nó, một cái gì đó khác xuất hiện mà tôi đã không xem xét trước đó ....) nhưng không rõ (đối với tôi) quá trình tạo dữ liệu trong khung Bayesian thực sự là.

Khung thường xuyên rõ ràng với tôi. Có một số "true" tham số (s) và tham số mà tạo ra các dữ liệu theo sự phân bố rằng nó parametrizes.θ

Tuy nhiên, trong cài đặt Bayes, chúng tôi mô hình tham số dưới dạng một biến ngẫu nhiên. Phần đó không làm tôi bối rối. Nó có ý nghĩa, bởi vì một người Bayes giải thích xác suất này là sự không chắc chắn trong niềm tin của chính nó. Họ ổn với việc gán xác suất cho các sự kiện không thể lặp lại. Vì vậy, cách mà tôi diễn giải "chủ nghĩa Bayes" là, nó tin rằng có một số tham số tạo ra dữ liệu, nó chắc chắn là không xác định nhưng tuy nhiên, đã được sửa khi nó được quyết định bởi "tự nhiên" (và có lẽ tự nhiên đã quyết định ngẫu nhiên những gì nó được cho là được). Tuy nhiên, nó đã được sửa và do đó nó tạo ra là một "sự kiện không thể lặp lại". Mặc dù nó là nonrepeatable, chúng tôi chỉ cố gắng cập nhật niềm tin riêng của chúng tôi θdữ liệu đã cho. Do đó, dữ liệu có thể được tạo bởi bất kỳ tham số nào đang được xem xét bởi phân phối xác suất của chúng tôi (trước đó), tuy nhiên, tham số này là cố định và không xác định. Chúng tôi chỉ gắn một giá trị xác suất cho nó.

Với quan điểm này, thật hợp lý khi tôi cho rằng quy trình tạo dữ liệu gần giống với quy trình thường xuyên. "Thiên nhiên" chọn tham số bằng cách sử dụng "true" "trước khi" phân phối P * ( θ ) và một khi các biến ngẫu nhiên mất nó "thực hiện đúng" (nhưng cố định), nó bắt đầu tạo ra các dữ liệu mà chúng tôi quan sát.θP(θ)

Đây có phải là cách tiêu chuẩn để diễn giải quy trình tạo dữ liệu trong khung Bayes?

θθθP(θ)


Lưu ý bên hài hước:

Tôi ước có thể hỏi "Tự nhiên" cô ấy đang làm điều đó như thế nào và giải quyết chuyện này một lần và mãi mãi ... lol.


4
θθ

4
Đối với tôi phương thức tạo dữ liệu hoàn toàn giống với Bayesian đối với người không phải Bayes, tức là có một số giá trị tham số đúng và tham số đó tạo dữ liệu theo giả định mô hình của bạn (nếu mô hình là đúng).
jaradniemi

θθP(x)

2
@ Tây An (+1). Tuy nhiên, bạn đã viết "Thay vào đó, mô hình trước là một lượng hóa các hạn chế của niềm tin và kiến ​​thức trước đây của chúng tôi về". Tôi không hiểu mục đích của từ "giới hạn". Bạn có thể chi tiết điều này cho tôi xin vui lòng?
peuhp

Câu trả lời:


3

Điều này khá đơn giản: không có sự khác biệt giữa người Bayes và người thường xuyên liên quan đến ý tưởng về mô hình tạo dữ liệu.

Để hiểu điều này, trước tiên hãy xem xét rằng mô hình tạo dữ liệu được mã hóa theo khả năng toán học, là cơ sở cho sự suy luận của người Bayes và người thường xuyên như nhau. Và không có sự khác biệt giữa khả năng Bayes và thường xuyên.

Bây giờ, bạn có thể nói: điều đó không có nghĩa là người Bayes nghĩ rằng các tham số của quá trình tạo dữ liệu là cố định. Chắc chắn, nhưng thực sự, rất ít ý nghĩa để nghĩ khác - điều gì sẽ là điểm để ước tính một số lượng không cố định? Điều đó thậm chí có nghĩa là gì về mặt toán học? Tất nhiên, có thể là bạn có một số lượng không phải là giá trị, mà là phân phối. Nhưng sau đó bạn ước tính phân phối, vì vậy nó được cố định lại.

Sự khác biệt thực sự, như @ Xi'an nói, không nằm ở giả định về cách dữ liệu của chúng tôi được tạo ra, mà là trong suy luận. Vì vậy, khi bạn nói

Tuy nhiên, trong cài đặt Bayes, chúng tôi mô hình tham số dưới dạng một biến ngẫu nhiên.

Tôi sẽ không đồng ý - chúng tôi mô hình hóa kiến thức / sự không chắc chắn của chúng tôi về tham số thực là một biến ngẫu nhiên - đó là sự khác biệt tinh tế nhưng quan trọng - chúng tôi coi tham số là các biến ngẫu nhiên để khám phá sự không chắc chắn của chúng tôi về giá trị "thật" của chúng.


"điểm ước tính số lượng không cố định là gì?" Nói chung, trong thế giới thực, chúng ta có các hệ thống động, thay đổi theo thời gian, do đó, sẽ có các trường hợp sử dụng ước tính số lượng thay đổi theo thời gian.
nbro

Vâng, nhưng đó không phải là vấn đề. Câu hỏi là nếu suy luận Bayes giả định rằng một giá trị thực (cố định) cho những thứ mà bạn ước tính tồn tại. Trong ví dụ của bạn, câu hỏi sẽ là nếu suy luận giả định rằng hệ thống động lực có trạng thái thực tại từng thời điểm.
Florian Hartig

2

Trang 3 và 4 của BDA của Gelman và cộng sự, tái bản lần thứ 3, đang chiếu sáng. Thống kê Bayes nhằm mục đích suy luận từ dữ liệu bằng cách sử dụng các mô hình xác suất cho các số lượng quan sát được và số lượng không quan sát được. Chúng tôi gọi các đại lượng không quan sát được là các tham số, ngay cả khi sự khác biệt không phải lúc nào cũng rõ ràng. Trong thống kê Bayes, tất cả sự không chắc chắn về các biến liên quan đến mô hình được biểu diễn bằng xác suất. Do đó, chúng ta cần thiết lập một mô hình xác suất đầy đủ, nghĩa là xác suất chung giữa tất cảcác biến liên quan đến vấn đề của chúng tôi, cả các tham số có thể quan sát và không quan sát được, tức là. Điều này có nghĩa là chúng tôi sử dụng các biến ngẫu nhiên để đại diện cho cả hai. Điều đó không có nghĩa là chúng tôi tin rằng tham số là ngẫu nhiên: điều đó có nghĩa đơn giản là kiến ​​thức của chúng tôi về giá trị thực của các tham số bị hạn chế và chúng tôi đại diện cho bất kỳ kiến ​​thức hạn chế nào chúng tôi có trước khi quan sát dữ liệu thông qua phân phối xác suất trước đó. Sau đó, chúng tôi quan sát dữ liệu và điều kiện trên dữ liệu được quan sát bằng mô hình cho quy trình tạo dữ liệu (đưa ra một hàm khả năng nhất định) và quy tắc của Bayes, để có được phân phối xác suất sau, định lượng sự không chắc chắn còn lại trong kiến ​​thức của chúng tôi về số lượng không quan sát được.

Nói cách khác, chúng tôi sử dụng các biến ngẫu nhiên cho các tham số không phải vì chúng tôi tin rằng không có tham số thực sự, mà vì chúng tôi có kiến ​​thức hạn chế về chúng, giúp cải thiện sau khi quan sát dữ liệu cho các biến có thể đo được, nhưng nó không biến mất hoàn toàn. Như một vấn đề thực tế, có các điều kiện kỹ thuật trong đó phân phối sau có xu hướng đồng bằng Dirac (do đó biến ngẫu nhiên được sử dụng để biểu thị tham số trở nên suy biến) trong giới hạn số lượng quan sát là 0. Nếu không có Giá trị "đúng" cho tham số, điều này sẽ không có nhiều ý nghĩa. Bây giờ, chắc chắn những điều kiện này không phải lúc nào cũng hợp lệ, nhưng trong nhiều phân tích Bayes tiêu chuẩn (ngay cả khi không phải tất cả), chúng tôi không nghi ngờ sự tồn tại của một mô hình thực sự và các giá trị thực hoặc cố định cho các giá trị không quan sát được.


1
Vì vậy, đối với những người có sự giải thích về bayesian (tức là có một mô hình thực sự mà chúng ta chỉ là không biết gì), có vẻ như quá trình tạo dữ liệu phải giống như bình thường, tức là các tham số thực sự tạo ra dữ liệu (x, y) và đó có phải là nó không?
Pinocchio

1
hoàn toàn đồng ý. Như tôi đã viết ở trên, và như @FlorianHartig đã thảo luận với chiều dài lớn hơn, quy trình tạo dữ liệu xác định hàm khả năng và hàm khả năng được xác định theo cùng một cách trong cả hai mô hình.
DeltaIV

1

Đây có phải là cách tiêu chuẩn để diễn giải quy trình tạo dữ liệu trong khung Bayes?

Không, đây không phải là giải thích tiêu chuẩn. Trong thực tế, bạn đã nhận ra trong câu hỏi của bạn về cách giải thích "chủ quan" của xác suất , là cơ sở tiêu chuẩn của thống kê Bayes. Theo cách hiểu "chủ quan" (được gọi đúng hơn là cách hiểu "epistemia"), các phân phối xác suất trước và sau cho các tham số được sử dụng để thể hiện độ không chắc chắn của người dùng về các tham số chưa biết trong mô hình. Theo tài khoản này, không có giả định về bất kỳ quá trình siêu hình tương ứng nào xảy ra trong tự nhiên, hoặc bất kỳ sự ngẫu nhiên nào trong tự nhiên. Thật vậy, theo quan điểm này, mô hình Bayes không cung cấp bất kỳ lý thuyết nào cảvề "quá trình tạo dữ liệu" của tự nhiên; nó chỉ đơn thuần cung cấp cho chúng ta một cách toán học để mô hình hóa sự không chắc chắn của chúng ta về những thứ trong tự nhiên, và do đó hình thành một lý thuyết suy luận và dự đoán .

Mô tả sau của bạn là một ví dụ về lý thuyết xu hướng xác suất , trong đó đặt ra rằng có một quá trình siêu hình xảy ra trong tự nhiên tương tự như tính toán xác suất. Việc giải thích xác suất này giả định rằng có một số "khuynh hướng" siêu hình sẵn có trong tự nhiên cho các kết quả xảy ra ngẫu nhiên theo quy luật xác suất. Như với hầu hết người Bayes, tôi luôn thấy các tài khoản xu hướng hơi ngớ ngẩn. Nó thực sự là một ví dụ về xu hướng của con người để phóng chiếu các phương thức suy nghĩ của chúng ta lên thiên nhiên, và cho rằng có những sự tương tự trong tự nhiên đối với các phương pháp và cấu trúc nhận thức luận của chúng ta. (Như vậy, "giải thích xu hướng" đúng hơn là một lý thuyết về xu hướng của con người hơn là một xác suất!)

Bây giờ, bạn có thể quyết định áp dụng cách giải thích chủ nghĩa duy tâm của xác suất, hoặc bạn có thể không đồng ý với tôi và quyết định áp dụng giải thích xu hướng. Bất kể, bạn sẽ rơi vào một mớ hỗn độn khủng khiếp nếu bạn tương đương giữa hai cách hiểu khác nhau này. Đó có lẽ là những gì đang mang lại cho bạn những khó khăn vào lúc này.


-1

θ

θ

Dữ liệu trong chế độ xem Bayes được tạo bởi 'hệ thống thực' - mà bạn sẽ không bao giờ có thể mô hình chính xác. Do đó, một tham số thực sự tiềm ẩn của mô hình giả định của bạn không thể tồn tại.


5
Tôi không đồng ý với cách giải thích ở trên: một phân tích Bayes tiêu chuẩn không đặt sự không chắc chắn về tính phù hợp của mô hình. Phân phối trước biểu thị sự không chắc chắn về thông tin có sẵn trên tham số. Điều này không có nghĩa là không có tham số giá trị cố định hoặc không có tham số đúng.
Tây An

@ Xi'an: Như bạn nói, một phân tích Bayes tiêu chuẩn không đặt ra sự không chắc chắn về tính phù hợp của mô hình: Mô hình xác suất đại diện cho niềm tin trước của chúng tôi - liệu chúng có phù hợp hay không là một câu hỏi khác. Tuy nhiên, ai có thể tuyên bố rằng mô hình của mình thực sự có thể đại diện cho hệ thống cơ bản thực sự một cách hoàn hảo? Nếu liên kết này bị thiếu, bạn có thể kết thúc bằng một tham số cố định. NHƯNG đó không phải là 'tham số thực' - nếu bạn xác định 'tham số thực' là tham số thực sự tạo ra dữ liệu.
Hội nghị thượng đỉnh
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.