Mô hình logit Bayes - giải thích trực quan?


11

Tôi phải thú nhận rằng trước đây tôi chưa từng nghe về thuật ngữ đó trong bất kỳ lớp học nào, đại học hoặc sau đại học.

Điều đó có nghĩa gì đối với hồi quy logistic là Bayes? Tôi đang tìm kiếm một lời giải thích với sự chuyển đổi từ logistic thông thường sang logistic Bayes tương tự như sau:

Đây là phương trình trong mô hình hồi quy tuyến tính: .E(y)=β0+β1x1+...+βnxn

Đây là phương trình trong mô hình hồi quy logistic: . Điều này được thực hiện khi y là phân loại.ln(E(y)1E(y))=β0+β1x1+...+βnxn

Những gì chúng tôi đã làm là thay đổi thành .ln ( E ( y )E(y)ln(E(y)1E(y))

Vì vậy, những gì đã làm cho mô hình hồi quy logistic trong hồi quy logistic Bayes? Tôi đoán nó không phải là một cái gì đó để làm với phương trình.

Bản xem trước cuốn sách này dường như xác định, nhưng tôi không thực sự hiểu. Tất cả những gì trước đây, công cụ khả năng là gì? Là gì ? Ai đó có thể vui lòng giải thích rằng một phần của cuốn sách hoặc mô hình logit Bayes theo một cách khác?α

Lưu ý: Điều này đã được hỏi trước đây nhưng tôi không trả lời tốt lắm.


1
Tôi không muốn đưa ra câu trả lời vì tôi nghĩ @Tim có phần lớn nội dung. Điều duy nhất còn thiếu từ câu trả lời tuyệt vời đó là, trong hồi quy logistic Bayes và mô hình tuyến tính tổng quát Bayes (GLM) nói chung, các phân phối trước không chỉ được đặt trên các hệ số, mà còn qua các phương sai và hiệp phương sai của các hệ số đó. Điều này cực kỳ quan trọng cần đề cập bởi vì một trong những lợi thế chính của phương pháp Bayes đối với GLM là khả năng dễ dàng hơn trong việc chỉ định và trong nhiều trường hợp cũng phù hợp với các mô hình phức tạp cho hiệp phương sai của các hệ số.
Cân bằng Brash

2
@BrashEquilibrium: bạn đang đề cập đến một phần mở rộng phân cấp có thể có của mô hình Bayes chuẩn cho mô hình logit. Trong cuốn sách của chúng tôi , chúng tôi sử dụng ví dụ một g-trước khi vào 's, mà trước khi cố định hiệp phương sai ma trận có nguồn gốc từ các đồng biến . XβX
Tây An

1
Đủ công bằng trên g trước.
Cân bằng Brash

1
Điều đó nói rằng, vẫn còn một ưu tiên về hiệp phương sai !!!!!! Nếu bạn không thảo luận về nó, bạn sẽ không mô tả cách thức hồi quy logistic hoạt động hoàn toàn.
Cân bằng Brash

Câu trả lời:


19

Hồi quy logistic có thể được mô tả như một sự kết hợp tuyến tính

η=β0+β1X1+...+βkXk

được truyền qua chức năng liên kết :g

g(E(Y))=η

trong đó chức năng liên kết là chức năng logit

E(Y|X,β)=p=logit1(η)

Trong đó chỉ lấy các giá trị trong và các hàm logit nghịch đảo biến đổi tổ hợp tuyến tính thành phạm vi này. Đây là nơi hồi quy logistic cổ điển kết thúc.{ 0 , 1 } ηY{0,1}η

Tuy nhiên, nếu bạn nhớ rằng cho các biến chỉ lấy các giá trị trong , thì có thể coi là . Trong trường hợp này, đầu ra của hàm logit có thể được coi là xác suất có điều kiện của "thành công", tức là . Phân phối Bernoulli là phân phối mô tả xác suất quan sát kết quả nhị phân, với một số tham số , vì vậy chúng ta có thể mô tả là{ 0 , 1 } E ( Y | X , β ) P ( Y = 1 | X , β ) P ( Y = 1 | X , β ) p YE(Y)=P(Y=1){0,1}E(Y|X,β)P(Y=1|X,β)P(Y=1|X,β)pY

yiBernoulli(p)

Vì vậy, với hồi quy logistic, chúng tôi tìm kiếm một số tham số mà togeder với các biến độc lập tạo thành một tổ hợp tuyến tính . Trong hồi quy cổ điển (chúng tôi giả sử hàm liên kết là hàm nhận dạng), tuy nhiên để mô hình lấy các giá trị trong chúng ta cần chuyển đổi sao cho phù hợp trong phạm vi .X η E ( Y | X , β ) = η Y { 0 , 1 } η [ 0 , 1 ]βXηE(Y|X,β)=ηY{0,1}η[0,1]

Bây giờ, để ước tính hồi quy logistic theo cách Bayes, bạn chọn một số giá trị cho các tham số như với hồi quy tuyến tính (xem Kruschke et al, 2012 ), sau đó sử dụng hàm logit để chuyển đổi tổ hợp tuyến tính , do đó, sử dụng đầu ra của nó làm tham số của phân phối Bernoulli mô tả biến của bạn . Vì vậy, vâng, bạn thực sự sử dụng phương trình và hàm liên kết logit giống như trong trường hợp thường xuyên, và phần còn lại hoạt động (ví dụ chọn các mục sư) như với ước tính hồi quy tuyến tính theo cách Bayesian. η p YβiηpY

Cách tiếp cận đơn giản để chọn các mục sư là chọn các bản phân phối Bình thường (nhưng bạn cũng có thể sử dụng các bản phân phối khác, ví dụ: phân phối - hoặc Laplace cho mô hình mạnh hơn) cho với các tham số và được đặt trước hoặc lấy từ các linh mục phân cấp . Bây giờ, có định nghĩa mô hình, bạn có thể sử dụng phần mềm như JAGS để thực hiện mô phỏng Markov Chain Monte Carlo để bạn ước tính mô hình. Dưới đây tôi đăng mã JAGS cho mô hình logistic đơn giản (kiểm tra ở đây để biết thêm ví dụ).β i μ i σ 2 itβiμiσi2

model {
   # setting up priors
   a ~ dnorm(0, .0001)
   b ~ dnorm(0, .0001)

   for (i in 1:N) {
      # passing the linear combination through logit function
      logit(p[i]) <- a + b * x[i]

      # likelihood function
      y[i] ~ dbern(p[i])
   }
}

Như bạn có thể thấy, mã trực tiếp chuyển thành định nghĩa mô hình. Phần mềm làm gì là nó rút ra một số giá trị từ các mục sư bình thường absau đó nó sử dụng các giá trị đó để ước tính pvà cuối cùng, sử dụng hàm khả năng để đánh giá khả năng dữ liệu của bạn được cung cấp cho các tham số đó (đây là khi bạn sử dụng định lý Bayes, xem tại đây để biết mô tả chi tiết hơn).

Mô hình hồi quy logistic cơ bản có thể được mở rộng để mô hình hóa sự phụ thuộc giữa các dự đoán sử dụng mô hình phân cấp (bao gồm hyperpriors ). Trong trường hợp này, bạn có thể rút từ phân phối Bình thường nhiều biến cho phép chúng tôi đưa thông tin về hiệp phương sai giữa các biến độc lậpβiΣ

(β0β1βk)MVN([μ0μ1μk],[σ02σ0,1σ0,kσ1,0σ12σ1,kσk,0σk,1σk2])

... nhưng điều này sẽ đi vào chi tiết, vì vậy hãy dừng lại ở đây.

Phần "Bayes" ở đây là chọn các linh mục, sử dụng định lý Bayes và mô hình xác định theo thuật ngữ xác suất. Xem ở đây để định nghĩa về "mô hình Bayes" và ở đây để biết một số trực giác chung về phương pháp tiếp cận Bayes . Điều bạn cũng có thể nhận thấy là việc xác định các mô hình khá đơn giản và linh hoạt với phương pháp này.


Kruschke, JK, Aguinis, H., & Joo, H. (2012). Đã đến lúc: phương pháp Bayes để phân tích dữ liệu trong khoa học tổ chức. Phương pháp nghiên cứu tổ chức, 15 (4), 722-752.

Gelman, A., Jakulin, A., Pittau, GM và Su, Y.-S. (2008). Một phân phối trước mặc định thông tin yếu cho các mô hình hồi quy và hậu cần khác. Biên niên sử thống kê ứng dụng, 2 (4), 1360 Từ1383.


1
Bạn cần bằng chứng cho phương sai, không chỉ các hệ số.
Cân bằng Brash

3
@BCLC không, đối với logit hồi quy logistic được sử dụng làm hàm liên kết , trong khi là tổ hợp tuyến tính , ví dụ: hồi quy tuyến tính là hàm nhận dạng nên , điều này chỉ là một đặc điểm kỹ thuật tiêu chuẩn của GLM . η η = β 0 + β 1 X 1 g E ( Y ) = ηgηη=β0+β1X1gE(Y)=η
Tim

1
@BCLC kiểm tra các liên kết trong câu trả lời của tôi, họ cung cấp một giới thiệu về thống kê Bayes nói chung. Đây là một chủ đề rộng lớn hơn nhiều mà chủ đề được đề cập trong câu hỏi ban đầu của bạn nhưng bạn có thể tìm thấy một giới thiệu hay trong các tài liệu tham khảo tôi cung cấp trong câu trả lời của tôi.
Tim

1
@Tim Tôi đã đánh máy ở đó. Bằng chứng được cho là để đọc các linh mục. Về cơ bản, các hệ số không phải là tham số duy nhất chưa biết. Phân phối đa cực cũng có ma trận hiệp phương sai và thông thường chúng ta không cho rằng nó được biết đến.
Cân bằng Brash

3
"Phần" Bayes "ở đây là chọn các linh mục, sử dụng định lý Bayes và mô hình xác định theo thuật ngữ xác suất." Một tài liệu tham khảo tốt ở đây là Gelman et al. MỘT PHÂN PHỐI SỞ HỮU TRÍ TUỆ THÔNG TIN TUYỆT VỜI CHO CÁC MÔ HÌNH ĐĂNG KÝ VÀ ĐĂNG KÝ KHÁC stat.columbia.edu/~gelman/research/published/priors11.pdf
Dalton Hance

6

Tất cả những gì trước đây, công cụ khả năng là gì?

Đó là những gì làm cho nó Bayes. Mô hình tổng quát cho dữ liệu là như nhau; sự khác biệt là phân tích Bayes chọn một số phân phối trước cho các tham số quan tâm và tính toán hoặc xấp xỉ phân phối sau , dựa trên đó tất cả suy luận dựa trên. Quy tắc Bayes liên quan đến hai: Hậu thế tỷ lệ thuận với thời gian khả năng trước đó.

Theo trực giác, ưu tiên này cho phép một nhà phân tích về mặt toán học thể hiện chuyên môn về chủ đề hoặc các phát hiện có từ trước. Chẳng hạn, văn bản bạn tham chiếu lưu ý rằng trước đó cho là một thông thường đa biến. Có lẽ các nghiên cứu trước đây cho thấy một loạt các tham số nhất định có thể được thể hiện với các thông số bình thường nhất định. (Với tính linh hoạt đi kèm với trách nhiệm: Người ta có thể biện minh cho họ trước một đối tượng hoài nghi.) Trong các mô hình phức tạp hơn, người ta có thể sử dụng chuyên môn về miền để điều chỉnh các tham số tiềm ẩn nhất định. Ví dụ, xem ví dụ về gan được tham chiếu trong câu trả lời này .β

Một số mô hình thường xuyên có thể liên quan đến một đối tác Bayes với một trước cụ thể, mặc dù tôi không chắc là tương ứng trong trường hợp này.


SeanEaster, 'trước' là từ được sử dụng để phân phối giả định? Chẳng hạn, chúng tôi giả sử là của X hoặc (nếu bạn muốn nói là như trong , ý bạn là thay vì , , ..., ? nghĩ rằng có phân phối ...?) là bình thường nhưng sau đó chúng tôi cố gắng khớp chúng vào phân phối khác? Chính xác ý bạn là gì khi 'xấp xỉ'? Tôi có cảm giác nó không giống với 'phù hợp'β β 1 , β 2 , . . . , Β n X 1 X 2 X n ββββ1,β2,...,βnX1X2Xnβ
BCLC

1
@BCLC Để trả lời những điều đó, tôi sẽ bắt đầu với quá trình suy luận Bayes và xác định các thuật ngữ khi tôi đi: Bayes coi tất cả các tham số quan tâm là các biến ngẫu nhiên và cập nhật niềm tin của họ về các tham số này theo dữ liệu. Các phân phối trước khi bày tỏ niềm tin của họ về các thông số trước khi phân tích dữ liệu; quy tắc * phân phối sau * Quy tắc Bayby Bayes, sản phẩm được chuẩn hóa trước và có khả năng là tóm tắt niềm tin không chắc chắn về các thông số theo ánh sáng của dữ liệu trước và dữ liệu. Tính toán phía sau là nơi diễn ra sự phù hợp.
Sean Easter

1
@BCLC Vì vậy, tại sao các tham số có phân phối. Trong các mô hình khác, đơn giản, các mô hình Bay Bay đơn giản, các phân phối sau có thể có biểu thức dạng đóng. (Trong một biến ngẫu nhiên Bernoulli có beta trước , ví dụ về là phân phối beta chẳng hạn.) Nhưng khi hậu thế không thể được biểu thị bằng phương pháp phân tích, chúng tôi ước tính chúng, thường sử dụng các phương pháp MCMC. p pβpp
Sean Easter

Được rồi tôi nghĩ rằng tôi hiểu bạn hơn sau khi đọc một bài luận về việc giải quyết một vấn đề trong học thuyết cơ hội . Cảm ơn SeanEster
BCLC

1
Vâng. Trong nhiều trường hợp, đó sẽ không thể tính toán phân tích. P(B)
Sean Easter
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.