Hồi quy Bayes: nó được thực hiện như thế nào so với hồi quy tiêu chuẩn?


57

Tôi có một số câu hỏi về hồi quy Bayes:

  1. Cho một hồi quy chuẩn như . Nếu tôi muốn thay đổi điều này thành hồi quy Bayes, tôi có cần phân phối trước cho cả β 0β 1 (hoặc không hoạt động theo cách này)?y=β0+β1x+εβ0β1

  2. Trong hồi quy tiêu chuẩn, người ta sẽ cố gắng giảm thiểu các phần dư để có được các giá trị đơn cho β 1 . Làm thế nào điều này được thực hiện trong hồi quy Bayes?β0β1


Tôi thực sự đấu tranh rất nhiều ở đây:

posterior=prior×likelihood

Khả năng xuất phát từ tập dữ liệu hiện tại (vì vậy đó là tham số hồi quy của tôi nhưng không phải là một giá trị đơn lẻ mà là phân phối khả năng, phải không?). Ưu tiên đến từ một nghiên cứu trước đây (giả sử). Vì vậy, tôi đã có phương trình này:

y=β1x+ε

với là khả năng của tôi hoặc sau này (hoặc điều này hoàn toàn sai)? β1

Tôi chỉ đơn giản là không thể hiểu làm thế nào hồi quy tiêu chuẩn biến thành một Bayes.

Câu trả lời:


93

Mô hình hồi quy tuyến tính đơn giản

yi=α+βxi+ε

có thể được viết theo mô hình xác suất đằng sau nó

μi=α+βxiyiN(μi,σ)

tức là biến phụ thuộc sau phân phối chuẩn parametrized bởi trung bình μ i , đó là một hàm tuyến tính của X parametrized bởi α , β , và bởi độ lệch chuẩn σ . Nếu bạn ước tính mô hình như sử dụng bình thường bình phương nhỏ nhất , bạn không cần phải bận tâm về việc xây dựng xác suất, bởi vì bạn đang tìm kiếm các giá trị tối ưu của α , β thông số bằng cách giảm thiểu các lỗi bình phương của giá trị được trang bị với các giá trị dự đoán. Mặt khác, bạn có thể ước tính mô hình như vậy bằng cách sử dụng ước tính khả năng tối đaYμiXα,βσα,β, nơi bạn sẽ tìm kiếm các giá trị tối ưu của các tham số bằng cách tối đa hóa hàm khả năng

argmaxα,β,σi=1nN(yi;α+βxi,σ)

Nyiα+βxiσ

Theo cách tiếp cận Bayes thay vì chỉ tối đa hóa hàm khả năng, chúng tôi sẽ giả sử các phân phối trước cho các tham số và sử dụng định lý Bayes

posteriorlikelihood×prior

α,β,σ

f(α,β,σY,X)posteriori=1nN(yiα+βxi,σ)likelihoodfα(α)fβ(β)fσ(σ)priors

α,βtσ

Xây dựng mô hình hồi quy tuyến tính Bayes

(nguồn: http://www.indiana.edu/~kruschke/BMLR/ )

Mặc dù trong khả năng tối đa bạn đang tìm kiếm một giá trị tối ưu duy nhất cho từng tham số, theo cách tiếp cận Bayes bằng cách áp dụng định lý Bayes, bạn có được phân phối sau của các tham số. Ước tính cuối cùng sẽ phụ thuộc vào thông tin xuất phát từ dữ liệu của bạn và từ các linh mục của bạn , nhưng càng có nhiều thông tin trong dữ liệu của bạn, thì càng ít ảnh hưởng đến các linh mục .

f(θ)1

Để ước tính một mô hình theo cách tiếp cận Bayes trong một số trường hợp, bạn có thể sử dụng các linh mục liên hợp , do đó phân phối sau có sẵn trực tiếp (xem ví dụ ở đây ). Tuy nhiên, trong phần lớn các trường hợp, phân phối sau sẽ không có sẵn trực tiếp và bạn sẽ phải sử dụng các phương pháp Markov Chain Monte Carlo để ước tính mô hình (kiểm tra ví dụ này về việc sử dụng thuật toán Metropolis-Hastings để ước tính các tham số của hồi quy tuyến tính). Cuối cùng, nếu bạn chỉ quan tâm đến ước tính điểm của các tham số, bạn có thể sử dụng ước tính posteriori tối đa , nghĩa là

argmaxα,β,σf(α,β,σY,X)

Để mô tả chi tiết hơn về hồi quy logistic, bạn có thể kiểm tra mô hình logit Bayes - giải thích trực quan? chủ đề.

Để tìm hiểu thêm, bạn có thể kiểm tra các cuốn sách sau:

Kruschke, J. (2014). Thực hiện phân tích dữ liệu Bayes: Hướng dẫn với R, JAGS và Stan. Báo chí học thuật.

Gelman, A., Carlin, JB, Stern, HS và Rubin, DB (2004). Phân tích dữ liệu Bayes. Chapman & Hội trường / CRC.


2
βiβi

2
+1. Một điều nữa có thể hữu ích để chỉ ra để làm rõ mối quan hệ giữa các phương pháp Bayes và OLS là OLS có thể được hiểu là nghĩa sau theo một căn hộ trước (ít nhất là theo như tôi hiểu). Sẽ là tuyệt vời nếu bạn có thể giải thích một chút về câu trả lời của bạn.
amip nói rằng Phục hồi Monica

@amoeba đó là một điểm tốt, tôi sẽ nghĩ về nó. Nhưng mặt khác, tôi không muốn đưa ra câu trả lời quá dài, vì vậy có một điểm cần phải đi vào chi tiết.
Tim

1
@amoeba FYI, tôi đã thêm một nhận xét ngắn gọn về điều đó.
Tim

22

D=(x1,y1),,(xN,yN)xRd,yR

wN(0,σw2Id)

w(w1,,wd)TIdd×d

YiN(wTxi,σ2)

YiYj|w,ij

a=1/σ2b=1/σw2a,b

p(w)exp{b2wtw}

p(D|w)exp{a2(yAw)T(yAw)}

y=(y1,,yN)TAn×dxiT

p(w|D)p(D|w)p(w)

Sau nhiều tính toán, chúng tôi phát hiện ra rằng

p(w|D)N(w|μ,Λ1)

Λ

Λ=aATA+bId
μ=aΛ1ATy

μwMAP

μΛ=aATA+bId

μ=(ATA+baId)1ATy

wMLE

wMLE=(ATA)1ATy

μλ=ba

Đối với phân phối dự báo sau:

p(y|x,D)=p(y|x,D,w)p(w|x,D)dw=p(y|x,w)p(w|D)dw

có thể tính toán rằng

y|x,DN(μTx,1a+xTΛ1x)

Tham khảo: Lunn et al. Cuốn sách BUG

Để sử dụng công cụ MCMC như JAGS / Stan, hãy kiểm tra Phân tích dữ liệu Bay Bay của Kruschke


Cảm ơn bạn jpneto. tôi cảm thấy rằng đây là một câu trả lời tuyệt vời, nhưng tôi chưa hiểu nó vì thiếu kiến ​​thức toán học. Nhưng tôi chắc chắn sẽ đọc lại sau khi đạt được một số kỹ năng toán học
TinglTanglBob

1
Điều này là rất tốt, nhưng giả định rằng độ chính xác được biết là hơi không phổ biến. Không phải là phổ biến hơn nhiều khi giả sử phân phối Gamma nghịch đảo cho phương sai, tức là phân phối Gamma cho độ chính xác?
DeltaIV

w

wN(0,λ1Id)λ

1
@DeltaIV: chắc chắn, khi chúng ta không chắc chắn về một tham số, chúng ta có thể mô hình hóa nó với trước. Giả định về độ chính xác đã biết là giúp dễ dàng tìm ra giải pháp phân tích. Thông thường, những giải pháp phân tích đó là không thể và chúng ta phải sử dụng các phép tính gần đúng, như MCMC hoặc một số kỹ thuật đa dạng.
jpneto
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.