Chúng ta có thể mô phỏng hồi quy tuyến tính mà không có sự ngẫu nhiên, có nghĩa là chúng ta tạo ra thay vì . Sau đó, nếu chúng ta phù hợp với một mô hình tuyến tính, các hệ số sẽ giống hệt với "sự thật mặt đất". Đây là một ví dụ.y = X β + ε
set.seed(0)
n <- 1e5
p <- 3
X <- matrix(rnorm(n*p), ncol=p)
beta <- runif(p)
# y <- X %*% beta + rnorm(n)*0.5
# remove the randomness
y <- X %*% beta
dat <- data.frame(y=y, x=X)
lm.res = lm(y ~ .-1, data=dat)
norm(as.matrix(lm.res$coefficients - beta))
[1] 2.176037e-14
Câu hỏi của tôi là chúng ta có thể làm mô phỏng tương tự với hồi quy logistic không? Từ câu hỏi này, tôi nhận được điểm loại bỏ tính ngẫu nhiên có thể được thực hiện bằng cách sử dụng câu lệnh xác định thay vì mẫu từ phân phối nhị thức.
y <- ifelse(plogis(X %*% beta)>0.5,1,0)
thay vì
y <- rbinom(n,1,prob=plogis(X %*% beta))
Nhưng nếu chúng ta làm điều đó, sự phân tách hoàn toàn sẽ xảy ra và chúng ta không thể có được các hệ số. Mặt khác, nếu chúng ta thêm chính quy, thì các hệ số sẽ không phải là dữ liệu được tạo.
Vậy, tôi có thể làm gì để "loại bỏ tính ngẫu nhiên trong hồi quy logistic" và giải quyết các hệ số "sự thật cơ bản" chính xác như trường hợp hồi quy tuyến tính?
Tôi cảm thấy tôi có một số hiểu lầm cơ bản về khái niệm này, tôi còn thiếu gì?