Phân phối trước thông tin yếu cho các tham số tỷ lệ


21

Tôi đã sử dụng các bản phân phối bình thường như các bản phân phối trước cho các tham số tỷ lệ (đối với các bản phân phối bình thường, bản phân phối, v.v.) khi tôi có một ý tưởng sơ bộ về quy mô nên là gì, nhưng tôi muốn nói rằng tôi không biết nhiều về nó Tôi sử dụng nó bởi vì việc sử dụng đó có ý nghĩa trực quan với tôi, nhưng tôi chưa thấy người khác sử dụng nó. Có bất kỳ nguy hiểm tiềm ẩn cho điều này?


1
Người bình thường có các linh mục liên hợp: en.wikipedia.org/wiki/N normal-gamma_distribution . Bạn có thể thấy những thứ này dễ sử dụng hơn nhiều.
whuber

Hấp dẫn. Tôi đang làm công cụ số, có một lợi thế cho các phân phối này bên cạnh tính cộng đồng không?
John Salvatier

5
Không thực sự là khu vực của tôi nhưng điều này 'có thể' có liên quan? Gelman A. Phân phối trước cho các tham số phương sai trong các mô hình phân cấp. Phân tích Bayes 2006; 1: 515 bóng533. dx.doi.org/10.1214/06-BA117A
vào

Tôi đã tìm thấy này Scaled-Beta 2 phân phối bởi Pérez và Pericchi đề xuất. 2

Các linh mục liên hợp cho một phân phối cụ thể như bình thường chỉ là các linh mục dẫn đến phân phối đó như là một phân phối sau được cung cấp một tập hợp dữ liệu. Nếu bạn sử dụng liên hợp trước, bạn không phải gặp rắc rối khi thực hiện tích hợp để tính toán sau. Nó làm cho mọi thứ thuận tiện nhưng ngày nay MCMC làm cho việc sử dụng nhiều loại linh mục có thể dễ dàng hơn nhiều.
Michael R. Chernick

Câu trả lời:


20

Tôi khuyên bạn nên sử dụng "Phân phối Beta loại thứ hai" (viết tắt là Beta 2 ) để phân phối thông tin nhẹ và sử dụng phân phối gamma nghịch đảo liên hợp nếu bạn có niềm tin mạnh mẽ trước đó. Lý do tôi nói điều này là vì liên hợp trước là không mạnh theo nghĩa là, nếu xung đột trước và dữ liệu, thì trước có ảnh hưởng không giới hạn đến phân phối sau. Hành vi như vậy là những gì tôi sẽ gọi là "giáo điều", và không được chứng minh bằng thông tin nhẹ trước đó.

Các tài sản xác định sự mạnh mẽ là hành vi đuôi của trước và khả năng. Một bài viết rất tốt phác thảo các chi tiết kỹ thuật là ở đây . Ví dụ: khả năng có thể được chọn (giả sử phân phối t) như là một quan sát (tức là trở nên tùy tiện lớn) nó được bỏ đi từ việc phân tích các tham số vị trí (nhiều trong cùng một cách mà bạn sẽ trực giác làm với một quan sát như vậy). Tốc độ "loại bỏ" phụ thuộc vào mức độ nặng của phân phối.yi

Một số slide trình bày một ứng dụng trong bối cảnh mô hình phân cấp có thể được tìm thấy ở đây (hiển thị dạng toán học của bản phân phối Beta 2 ), với một bài báo ở đây .

Nếu bạn không phải là trong bối cảnh mô hình thứ bậc, sau đó tôi sẽ đề nghị so sánh sau (hoặc bất kỳ kết quả nào bạn đang tạo) nhưng sử dụng Jeffreys trước cho một tham số quy mô, mà được cho bởi . Điều này có thể được tạo ra như là một giới hạn củamật độBeta2vì cả hai tham số của nó đều hội tụ về không. Đối với một xấp xỉ, bạn có thể sử dụng các giá trị nhỏ. Nhưng tôi sẽ cố gắng tìm ra giải phápp(σ)1σ phân tích nếu có thể (và nếu không phải là một giải pháp phân tích hoàn chỉnh, hãy lấy giải pháp phân tích tiến bộ nhất có thể), bởi vì bạn sẽ không chỉ tiết kiệm thời gian tính toán cho mình, mà là bạn cũng có khả năng hiểu những gì đang xảy ra trong mô hình của bạn tốt hơn.

Một cách khác là xác định thông tin trước của bạn dưới dạng các ràng buộc (có nghĩa là bằng , phương sai bằng V , IQR bằng I Q R , v.v. với các giá trị của M , V , I Q R do chính bạn chỉ định), và sau đó sử dụng phân phối tối đa entropy (tìm kiếm bất kỳ công việc của Edwin Jaynes hoặc Larry Bretthorst cho một lời giải thích tốt về những gì Maximum entropy là gì và nó không phải là) đối với Jeffreys' biện pháp bất biến "với m ( σ ) = 1MVIQRM,V,IQR . m(σ)=1σ

MaxEnt là phiên bản "Rolls Royce", trong khi Beta 2 là phiên bản "sedan" hơn. Lý do cho điều này là do bản phân phối MaxEnt "giả định ít nhất" tuân theo các ràng buộc mà bạn đã đặt vào nó (ví dụ: không có ràng buộc nào có nghĩa là bạn chỉ nhận được Jeffreys trước đó), trong khi bản phân phối Beta 2 có thể chứa một số tính năng "ẩn" có thể hoặc không thể mong muốn trong trường hợp cụ thể của bạn (ví dụ: nếu thông tin trước đó đáng tin cậy hơn dữ liệu, thì Beta 2 là xấu).

Một đặc tính tốt khác của phân phối MaxEnt là nếu không có các ràng buộc không xác định nào hoạt động trong cơ chế tạo dữ liệu thì phân phối MaxEnt hoàn toàn là phân phối có khả năng nhất mà bạn sẽ thấy (chúng ta đang nói về tỷ lệ cược qua hàng tỷ và hàng nghìn tỷ đồng). Do đó, nếu phân phối bạn thấy không phải là phân phối MaxEnt, thì có thể có các ràng buộc bổ sung mà bạn chưa chỉ định hoạt động trên quy trình thực và các giá trị quan sát có thể cung cấp manh mối về ràng buộc đó có thể là gì.


@probabilityislogic Câu trả lời hay. Bạn có biết nơi tôi có thể tìm thấy các giấy tờ bạn đề cập đến int đoạn thứ ba? Các liên kết không hoạt động.

1
một trong đó làm việc cho bài báo là ở đây . Đó là trên một hội nghị "trang web bayes 09" (các cuộc họp ở Valencia). Tôi không nghĩ các slide sẽ có sẵn nữa, vì trang web của hội nghị đã bị gỡ xuống ... :( đáng tiếc, đó là một bộ slide tốt. Cái horshoe trước đó trông thú vị trong liên kết bạn cung cấp.
xác suất

Beta2

@Procrastinator Tôi có đúng không khi cho rằng bạn chỉ muốn các linh mục phù hợp? Bạn đã không nói điều đó nhưng nếu bạn cho phép các linh mục không phù hợp, các linh mục của Jeffreys đã đề cập sẽ hoạt động và tôi có thể trích dẫn lý thuyết xác suất của Jeffreys, các cuốn sách của Dennis Lindley hoặc bách khoa toàn thư thống kê. Cách yêu cầu người ta có thể kiểm tra bằng Google để tìm câu trả lời và nếu không thể tìm thấy yêu cầu thì có lẽ không có gì trong tài liệu ngoài những tài liệu bạn đã trích.
Michael R. Chernick

@MichaelCécick Vâng, bạn nói đúng, tôi chỉ quan tâm đến các linh mục thích hợp. Lý do cho điều này là vì các linh mục thích hợp (1) sự tồn tại của hậu thế không bị hạn chế đối với một số mô hình nhất định và (2) tôi muốn kiểm tra xem tôi có bỏ sót một đề xuất thú vị nào không. Tôi đồng ý với bạn rằng có vẻ như các linh mục của Gelman, Pericchi và Gamma là phổ biến nhất trong văn học nhưng tôi cũng lưu ý rằng có một xu hướng đề xuất các linh mục đuôi nặng để tạo ra những suy luận 'mạnh mẽ'.

13

Bài báo sau đây của Daniels so sánh một loạt các linh mục co ngót cho phương sai. Đây là những linh mục phù hợp nhưng tôi không chắc có bao nhiêu người có thể được gọi là không cung cấp thông tin nếu có. Nhưng, ông cũng cung cấp một danh sách các linh mục không thông tin (không phải tất cả đều phù hợp). Dưới đây là tài liệu tham khảo.

MJ Daniels (1999), Ưu tiên cho phương sai trong các mô hình phân cấp , Canada J. Stat. , tập 27, không 3, trang 567 bóng578.

Linh mục

  1. K
  2. τ-2
  3. τ1
  4. 1/(σ2+τ2)
  5. σ/(2(σ2+τ2)3/2)
  6. σ2/(σ2+τ2)
  7. σ/(2τ(σ+τ)2)

Một bài báo gần đây hơn trong một tĩnh mạch liên quan là sau đây.

A. Gelman (2006), Phân phối trước cho các tham số phương sai trong các mô hình phân cấp , Phân tích Bayes , tập. 1, không 3, trang 515 Lãng533.


2
(+1) Đây là một phát hiện tốt. Tôi đã thêm một liên kết ổn định vào bài báo của Daniels cũng như một tài liệu tham khảo khác có vẻ bổ sung cho nó.
Đức hồng y

4

(Câu hỏi đã cũ, nhưng vấn đề thì không)

Cá nhân, tôi nghĩ rằng trực giác của bạn có ý nghĩa. Điều đó có nghĩa là, nếu bạn không cần sự gọn gàng toán học của tính liên hợp, thì bất kỳ phân phối nào bạn sẽ sử dụng cho một tham số vị trí, bạn nên sử dụng cùng một bản ghi cho tham số tỷ lệ. Vì vậy, những gì bạn đang nói là: sử dụng tương đương với một bình thường trước.

Bạn thực sự sẽ sử dụng một bình thường trước cho một tham số vị trí? Hầu hết mọi người sẽ nói rằng, trừ khi bạn làm cho phương sai trở nên lớn, điều đó có lẽ hơi "quá giáo điều", vì những lý do được giải thích trong các câu trả lời khác ở đây (ảnh hưởng không giới hạn). Một ngoại lệ sẽ là nếu bạn đang thực hiện các vịnh theo kinh nghiệm; nghĩa là, sử dụng dữ liệu của bạn để ước tính các tham số trước đó của bạn.

Nếu bạn muốn "thông tin yếu", có lẽ bạn sẽ chọn phân phối có đuôi béo hơn; các ứng cử viên rõ ràng là t phân phối. Lời khuyên mới nhất của Gelman dường như là sử dụng với df từ 3 - 7. (Lưu ý rằng liên kết cũng hỗ trợ đề xuất của tôi rằng bạn muốn làm điều tương tự cho nhật ký tỷ lệ mà bạn sẽ làm cho vị trí) Vì vậy, thay vì lognatural, bạn có thể sử dụng log-student-t. Để thực hiện điều này trong stan, bạn có thể làm một cái gì đó như:

real log_sigma_y; //declare at the top of your model block
//...some more code for your model
log_sigma_y <- log(sigma_y); increment_log_prob(-log_sigma_y);
log_sigma_y ~ student_t(3,1,3); //This is a 'weakly informative prior'.

Tuy nhiên, tôi nghĩ rằng nếu đoạn mã trên quá phức tạp đối với bạn, có lẽ bạn có thể thoát khỏi một logic bất thường trước đó, với hai cảnh báo. Đầu tiên, làm cho phương sai của trước đó rộng hơn một vài lần so với dự đoán sơ bộ của bạn về mức độ "không chắc chắn của bạn"; bạn muốn có một thông tin yếu trước, không phải là thông tin mạnh. Và thứ hai, một khi bạn vừa với mô hình của mình, hãy kiểm tra trung vị sau của tham số và đảm bảo rằng nhật ký của nó không quá xa trung tâm của lognatural. "Không quá xa" có lẽ có nghĩa là: ít hơn hai độ lệch chuẩn và tốt nhất là không nhiều hơn một SD.


2

Đối với các tham số tỷ lệ mô hình phân cấp, tôi hầu như đã kết thúc bằng cách sử dụng đề xuất của Andrew Gelman về việc sử dụng phân phối t không gấp, không trung tâm. Điều này đã làm việc khá tốt cho tôi.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.