Tại sao sử dụng liên kết logit trong hồi quy beta?

14

Gần đây, tôi đã quan tâm đến việc thực hiện mô hình hồi quy beta, vì một kết quả là một tỷ lệ. Lưu ý rằng kết quả này sẽ không phù hợp với bối cảnh nhị thức, bởi vì không có khái niệm có ý nghĩa về một "thành công" riêng biệt trong bối cảnh này. Trong thực tế, kết quả thực sự là một tỷ lệ thời lượng; tử số là số giây trong khi một điều kiện nhất định được kích hoạt trên tổng số giây trong đó điều kiện đủ điều kiện để hoạt động. Tôi xin lỗi vì những điều mơ hồ, nhưng tôi không muốn tập trung quá nhiều vào bối cảnh chính xác này, bởi vì tôi nhận ra có nhiều cách để một quá trình như vậy có thể được mô hình hóa bên cạnh hồi quy beta, và bây giờ tôi quan tâm nhiều hơn đến lý thuyết những câu hỏi đã nảy sinh trong nỗ lực của tôi để thực hiện một mô hình như vậy (tất nhiên tôi là

Trong mọi trường hợp, tất cả các tài nguyên tôi có thể tìm thấy đã chỉ ra rằng hồi quy beta thường phù hợp bằng cách sử dụng liên kết logit (hoặc probit / cloglog) và các tham số được hiểu là thay đổi về tỷ lệ cược log. Tuy nhiên, tôi vẫn chưa tìm thấy một tài liệu tham khảo thực sự cung cấp bất kỳ lời biện minh thực sự nào về lý do tại sao một người muốn sử dụng liên kết này.

Bản gốc của Ferrari & Cribari-Neto (2004) không cung cấp lời biện minh; họ chỉ lưu ý rằng hàm logit là "đặc biệt hữu ích", do cách giải thích tỷ lệ chênh lệch của các tham số lũy thừa. Các nguồn khác ám chỉ mong muốn ánh xạ từ khoảng (0,1) đến dòng thực. Tuy nhiên, chúng ta có nhất thiết cần một hàm liên kết cho ánh xạ như vậy không, cho rằng chúng ta đã giả sử phân phối beta? Hàm liên kết cung cấp những lợi ích nào ở trên và ngoài các ràng buộc được áp đặt bằng cách giả sử phân phối beta bắt đầu bằng?Tôi đã chạy một vài mô phỏng nhanh và không thấy dự đoán ngoài khoảng (0,1) với liên kết nhận dạng, ngay cả khi mô phỏng từ các bản phân phối beta có khối lượng xác suất phần lớn gần bằng 0 hoặc 1, nhưng có lẽ mô phỏng của tôi chưa đủ chung để nắm bắt một số bệnh lý.

Đối với tôi, dường như dựa trên cách các cá nhân, trong thực tế, diễn giải các ước tính tham số từ các mô hình hồi quy beta (nghĩa là tỷ lệ chênh lệch) mà họ đang ngầm suy luận về tỷ lệ "thành công"; nghĩa là, họ đang sử dụng hồi quy beta để thay thế cho mô hình nhị thức. Có lẽ điều này phù hợp trong một số bối cảnh, dựa trên mối quan hệ giữa các bản phân phối beta và nhị thức, nhưng đối với tôi, đây có vẻ là một trường hợp đặc biệt hơn so với trường hợp chung. Trong câu hỏi này , một câu trả lời được đưa ra để diễn giải tỷ lệ chênh lệch liên quan đến tỷ lệ liên tục thay vì kết quả, nhưng dường như tôi không cần thiết phải cố gắng giải thích mọi thứ theo cách này, trái ngược với việc sử dụng nhật ký hoặc liên kết danh tính và giải thích% thay đổi hoặc thay đổi đơn vị.

Vậy, tại sao chúng ta sử dụng liên kết logit cho các mô hình hồi quy beta? Có phải nó chỉ đơn giản là một vấn đề thuận tiện, để liên hệ nó với các mô hình nhị thức?

logit beta-regression

— Ryan Simmons
nguồn

8

Biện minh cho chức năng liên kết: Hàm liên kết đảm bảo rằng tất cả các giá trị được trang bị là luôn luôn trong . Điều này có thể không quan trọng lắm trong một số ứng dụng, ví dụ, bởi vì các dự đoán hoặc chỉ được đánh giá trong mẫu hoặc không quá gần 0 hoặc 1. Nhưng nó có thể quan trọng trong một số ứng dụng và bạn thường không biết trước liệu nó có quan trọng hay không không phải. Các vấn đề điển hình tôi đã thấy bao gồm: đánh giá dự đoán các giá trị mới (hơi) nằm ngoài phạm vi của mẫu học tập ban đầu hoặc tìm các giá trị bắt đầu phù hợp. Để xem xét sau: $g(\mu): (0,1) \rightarrow \mathbb{R}$ $\hat \mu = g^{-1}(x^\top \hat \beta)$ $(0, 1)$ $x$

library("betareg")
data("GasolineYield", package = "betareg")
betareg(yield ~ batch + temp, data = GasolineYield, link = make.link("identity"))
## Error in optim(par = start, fn = loglikfun, gr = if (temporary_control$use_gradient) gradfun else NULL,  : 
##   initial value in 'vmmin' is not finite

Nhưng, tất nhiên, người ta có thể chỉ cần thử cả hai tùy chọn và xem liệu các vấn đề với liên kết nhận dạng có xảy ra hay không và liệu nó có cải thiện sự phù hợp của mô hình hay không.

Giải thích các tham số: Tôi đồng ý rằng việc diễn giải các tham số trong các mô hình có chức năng liên kết khó hơn so với các mô hình có liên kết nhận dạng và các học viên thường hiểu sai. Tuy nhiên, tôi cũng thường thấy giải thích sai các tham số trong các mô hình xác suất tuyến tính (hồi quy nhị phân với liên kết nhận dạng, điển hình là bình phương tối thiểu). Giả định rằng các hiệu ứng cận biên là hằng số không thể giữ nếu dự đoán đủ gần với 0 hoặc 1 và người ta sẽ cần phải thực sự cẩn thận. Ví dụ: đối với quan sát với việc tăng không thể dẫn đến giảm của, giả sử, $\hat \mu = 0.01$ $x$ $\hat \mu$ $0.02$ . Nhưng điều này thường được đối xử rất chậm chạp trong những tình huống đó. Do đó, tôi sẽ lập luận rằng đối với một mô hình phản hồi giới hạn, các tham số từ bất kỳ chức năng liên kết nào cần được diễn giải cẩn thận và có thể cần một số thực hành. Do đó, lời khuyên thông thường của tôi là (như thể hiện trong các cuộc thảo luận khác mà bạn đã liên kết trong câu hỏi của mình) để xem xét các hiệu ứng cho các cấu hình hồi quy quan tâm. Chúng dễ hiểu hơn và thường (nhưng không phải luôn luôn) khá giống nhau (từ góc độ thực tế) cho các chức năng liên kết khác nhau.

— Achim Zeileis
nguồn

10

Không chính xác là hồi quy logistic chỉ có thể được sử dụng để mô hình hóa dữ liệu kết quả nhị phân. Mô hình hồi quy logistic phù hợp với mọi dữ liệu trong đó 1) giá trị kết quả mong đợi theo một đường cong logistic như là một hàm của các yếu tố dự đoán 2) phương sai của kết quả là kết quả mong đợi nhân với một kết quả mong đợi (hoặc một phần tỷ lệ của nó) 3) (hệ quả của 2) phạm vi dữ liệu nằm trong khoảng từ 0 đến 1. Các thuộc tính này chắc chắn giữ cho dữ liệu Bernoulli. Nhưng người ta nên thực hiện một số thống kê và âm mưu thăm dò trước khi ngay lập tức làm mất uy tín của mô hình logistic như một phương tiện khả thi (và dễ thực hiện / giải thích) có nghĩa là để trả lời một câu hỏi khoa học.

Mô hình hồi quy logistic là trường hợp đặc biệt của mô hình tuyến tính tổng quát (GLM), điều đó có nghĩa là các ước tính tham số nhất quán và suy luận được đưa ra bởi mô hình. Các mô hình logistic được sử dụng để mô hình tỷ lệ, biến số thứ tự, tỷ lệ, điểm thi, thứ hạng và tất cả các cách kết quả không nhị phân ở một số nơi trong tài liệu.

Xin lỗi vì câu trả lời này không hướng câu hỏi của bạn xuống sau, nhưng nêu rõ lý do trước đó đưa ra một quan niệm sai lầm đáng để giải quyết.

Nhiều người dùng R đã đề xuất rằng "cảnh báo" xuất phát từ việc phù hợp với phản hồi liên tục với các mô hình logistic nên bị loại bỏ. Một cách "giữa đường" là thay đổi family=binomialthành family=quasibinomial. Một ví dụ về mô phỏng các dữ liệu này, điều chỉnh mô hình và thu được suy luận chính xác được trình bày ở đây:

set.seed(123)
## logistic non-binary response
x <- rep(c(-2, 0, 2), each=50)
n <- length(x)
b0 <- 0
b1 <- 0.3
yhat <- plogis(b0 + b1*x)

do.one <- function(){
  e <- rnorm(n, 0, yhat*(1-yhat))
  y <- yhat + e

  yfixed <- pmin(y, 1)
  yfixed <- pmax(yfixed, 0)

  est <- glm(yfixed ~ x, family=quasibinomial())
  ci <- confint.default(est, level = 0.9)
  cov0 <- b0 > ci[1,1] & b0 < ci[1,2]
  cov1 <- b1 > ci[2,1] & b1 < ci[2,2]
  c(cov0, cov1)
}

reg <- replicate(10000, do.one())
rowMeans(reg)

Cung cấp bảo hiểm chính xác 90% cho các TCTD

— Adam
nguồn

1

Tôi đánh giá cao sự làm rõ được đưa ra liên quan đến mô hình hồi quy logistic. Bạn đúng rằng đó là một mô hình tổng quát hơn thường được giả định. Tuy nhiên, tôi ngần ngại chấp nhận điều này như một câu trả lời, bởi vì dường như nó không hoàn toàn phát triển dòng lý luận đủ. Dường như với tôi, bạn đang nói rằng mối quan tâm của tôi đối với liên kết logit trong mô hình beta là không có cơ sở, bởi vì liên kết logit hoạt động tốt trên dữ liệu không nhị phân. Đây là một lập trường hợp lý, nhưng tôi cảm thấy không hiểu lắm về câu hỏi của mình về lý do tại sao chúng ta sử dụng logit trong mô hình beta và cách diễn giải nó.

— Ryan Simmons

1

@RyanSimmons Cảm ơn bạn đã phản hồi. Tôi đồng ý với lý luận của bạn ở đây. Tôi nghĩ rằng bất kỳ "cơ hội học hỏi" nào cũng đảm bảo một câu trả lời và do đó, một câu hỏi có thể có nhiều câu trả lời khả thi với mức độ "đúng" khác nhau. Tôi chưa từng chạm vào câu hỏi của bạn, đây là một câu hỏi hay, vì vậy câu trả lời "sáng hơn" có thể xuất hiện. Tôi tò mò về điều này bản thân mình, vì vậy tôi đang cố gắng đọc về chủ đề này nhiều hơn một chút.

— AdamO