Lựa chọn mô hình Bayes và khoảng tin cậy


9

Tôi có một bộ dữ liệu với ba biến, trong đó tất cả các biến là định lượng. Gọi nó là , và . Tôi đang điều chỉnh mô hình hồi quy theo quan điểm Bayes thông qua MCMC vớiyx1x2rjags

Tôi đã thực hiện một phân tích thăm dò và biểu đồ phân tán của cho thấy nên sử dụng thuật ngữ bậc hai. Sau đó, tôi trang bị hai mô hìnhy×x2

(1)y=β0+β1x1+β2x2

(2)y=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22

Trong mô hình 1, kích thước hiệu ứng của từng tham số không nhỏ và khoảng tin cậy 95% không chứa giá trị .0

Trong mô hình 2, kích thước hiệu ứng của các tham số và là nhỏ và mỗi khoảng đáng tin cậy cho tất cả các tham số chứa .β3β40

Thực tế là một khoảng đáng tin cậy chứa là đủ để nói rằng tham số này không đáng kể?0

Sau đó tôi điều chỉnh mô hình sau

(3)y=β0+β1x1+β2x2+β3x22

Kích thước hiệu ứng của từng tham số không nhỏ, nhưng ngoại trừ tất cả các khoảng tin cậy đều chứa .β10

Đó là cách đúng để thực hiện lựa chọn biến trong thống kê Bayes?

EDIT: Tôi có thể sử dụng Lasso trong bất kỳ mô hình hồi quy nào, như mô hình Beta không? Tôi đang sử dụng một mô hình với sự phân tán biến nơi

log(σ)=δδX
trong đóδδ là một vector. Tôi cũng nên sử dụng Laplace trước trong?δδ

EDIT2: Tôi đã trang bị hai mô hình, một mô hình với Gaussian cho , và một mô hình với Laplace (hàm mũ đôi).βjδj

Các ước tính cho mô hình Gaussian là

            Mean      SD  Naive SE Time-series SE
B[1]     -1.17767 0.07112 0.0007497      0.0007498
B[2]     -0.15624 0.03916 0.0004128      0.0004249
B[3]      0.15600 0.05500 0.0005797      0.0005889
B[4]      0.07682 0.04720 0.0004975      0.0005209
delta[1] -3.42286 0.32934 0.0034715      0.0034712
delta[2]  0.06329 0.27480 0.0028966      0.0028969
delta[3]  1.06856 0.34547 0.0036416      0.0036202
delta[4] -0.32392 0.26944 0.0028401      0.0028138

Các ước tính cho mô hình Lasso là

              Mean      SD  Naive SE Time-series SE
B[1]     -1.143644 0.07040 0.0007421      0.0007422
B[2]     -0.160541 0.05341 0.0005630      0.0005631
B[3]      0.137026 0.05642 0.0005947      0.0005897
B[4]      0.046538 0.04770 0.0005028      0.0005134
delta[1] -3.569151 0.27840 0.0029346      0.0029575
delta[2] -0.004544 0.15920 0.0016781      0.0016786
delta[3]  0.411220 0.33422 0.0035230      0.0035629
delta[4] -0.034870 0.16225 0.0017103      0.0017103
lambda    7.269359 5.45714 0.0575233      0.0592808

Các ước tính choδ2δ4

δ2


2
Mục 18.4 của DBDA2E * là về lựa chọn biến trong hồi quy bội. Rất thận trọng, bạn có thể đưa vào các chỉ số bao gồm với từng hệ số và xem xét xác suất đưa vào sau. Khi diễn giải các phân phối sau của các tham số, HDI 95% bao gồm 0 không biểu thị tương đương với 0. * DBDA2E = Thực hiện phân tích dữ liệu Bayesian Phiên bản 2.
John K. Kruschke

2
Cách tự nhiên để so sánh các mô hình trong khung Bayes là thông qua các khả năng cận biên, không phải là các khoảng tin cậy. Một thay thế được kết nối với tính trung bình của mô hình là sử dụng biểu diễn hỗn hợp và suy ra từ các trọng số của từng mô hình / thành phần mà mô hình được dữ liệu ưa thích.
Tây An

@ Xi'an nhưng so sánh hai hoặc nhiều mô hình thông qua khả năng cận biên sẽ không giống như sử dụng các yếu tố Bayes, nếu tất cả các mô hình được đưa ra cùng một xác suất trước?
DeltaIV

Thưa giáo sư Kruschke, tôi có một nghi ngờ liên quan đến việc tính toán các khoảng thời gian. Những gì tôi đã hiểu rằng có thể có nhiều khoảng tin cậy tùy thuộc vào tính hợp lý của hậu thế dựa trên các linh mục khác nhau. Nhưng ở đây làm thế nào để quyết định linh mục nào là hợp lý nhất mà lần lượt đưa ra hậu thế hợp lý nhất? Một câu hỏi khác là, tôi đang sử dụng suy luận biến đổi (VI) để tính toán cho các hậu thế và cuối cùng tính toán giới hạn dưới của bằng chứng mô hình. Làm thế nào để tính khoảng tin cậy cho hậu thế trong trường hợp VI? Hơn nữa, làm thế nào để tiến hành Yếu tố Bayes trong trường hợp VI?
Sandipan Karmakar

Câu trả lời:


9

Người ta biết rằng việc xây dựng một mô hình dựa trên những gì có ý nghĩa (hoặc một số tiêu chí khác như AIC, cho dù khoảng tin cậy có chứa 0, v.v.) là khá khó khăn, đặc biệt nếu sau đó bạn suy luận như thể bạn chưa thực hiện xây dựng mô hình. Thực hiện phân tích Bayes không thay đổi điều đó (xem thêm https://stats.stackexchange.com/a/201931/86652 ). Tức là bạn không nên thực hiện lựa chọn biến, mà là lấy trung bình mô hình (hoặc một cái gì đó có thể giúp bạn có một số hệ số bằng 0, nhưng phản ánh toàn bộ quá trình mô hình hóa, chẳng hạn như LASSO hoặc lưới đàn hồi).

exp(BIC/2)

Ngoài ra, bạn có thể biểu thị mô hình trung bình như một ưu tiên là hỗn hợp giữa một khối điểm (trọng số của khối điểm là xác suất trước của hiệu ứng chính xác bằng 0 = hiệu ứng không có trong mô hình) và phân phối liên tục (ví dụ linh mục gai và phiến). Lấy mẫu MCMC có thể khá khó khăn cho trước đó.

Carvalho và cộng sự. thúc đẩy sự co rút của vành móng ngựa trước bằng cách gợi ý rằng nó hoạt động giống như một phép tính gần đúng liên tục với một mũi nhọn và tấm trước. Đây cũng là một trường hợp nhúng vấn đề trong mô hình phân cấp, trong một chừng mực nào đó kích thước và sự hiện diện của hiệu ứng trên một số biến làm giảm chứng cứ cần thiết cho người khác một chút (thông qua tham số co rút toàn cầu, điều này hơi giống như phát hiện sai kiểm soát tỷ lệ) và mặt khác cho phép các hiệu ứng riêng lẻ tự đứng vững nếu bằng chứng đủ rõ ràng. Có một triển khai thuận tiện của nó có sẵn từ gói brms R được xây dựng trên Stan / rstan . Có một số linh mục tương tự xa hơn như móng ngựa + trước đó và toàn bộ chủ đề là một lĩnh vực nghiên cứu đang diễn ra.


Bayesian Lasso giống như thống kê này.stackexchange.com/questions/28609/ ? Tôi có phải là một mô hình với biến phân tán Tôi cũng nên sử dụng số mũ đôi trước cho các tham số đó không?

2

Có một số phương thức chính thức để lựa chọn biến Bayes. Một đánh giá hơi lỗi thời về các phương pháp lựa chọn biến Bayes được trình bày trong:

Một đánh giá về các phương pháp lựa chọn biến Bayes: cái gì, như thế nào và cái nào

Một đánh giá gần đây hơn, bao gồm so sánh các phương pháp khác nhau và hiệu suất của các gói R nơi chúng được triển khai là:

Các phương pháp và công cụ để lựa chọn biến Bayes và mô hình trung bình trong hồi quy tuyến tính đơn biến

Tham chiếu này đặc biệt hữu ích ở chỗ nó chỉ cho bạn các gói R cụ thể nơi bạn chỉ cần cắm phản hồi và các giá trị đồng biến (và trong một số trường hợp là các giá trị siêu tham số) để chạy lựa chọn biến.

Một cách khác, nhanh và bẩn và không được khuyến nghị, cách tiến hành lựa chọn biến "Bayesian" là sử dụng lựa chọn từng bước (tiến, lùi, cả hai) bằng cách sử dụng BIC và lệnh R stepAIC (), có thể được điều chỉnh để thực hiện lựa chọn theo BIC.

https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html

β4=0

https://arxiv.org/pdf/0910.1452.pdf


β4

@MichaelCécick Vậy tại sao OP lại hỏi "In this case is reasonable say that $\beta_4\neq 0$"? và "Which is the right way to do variable selection in Bayesian statistics"?
CTHULHU

Tôi đã bỏ lỡ một phần của câu hỏi nhưng tôi không nghĩ đó là vấn đề chính.
Michael R. Chernick

1
@MichaelCécick Vâng, tôi đoán OP có từ cuối cùng ở đây ...
CTHULHU

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.