Chọn mô hình tốt nhất giữa logit, probit và nls

Tôi đang phân tích một bộ dữ liệu nhất định và tôi cần hiểu cách chọn mô hình tốt nhất phù hợp với dữ liệu của mình. Tôi đang sử dụng R.

Một ví dụ về dữ liệu tôi có là như sau:

corr <- c(0, 0, 10, 50, 70, 100, 100, 100, 90, 100, 100)

Những con số này tương ứng với tỷ lệ phần trăm của câu trả lời đúng, trong 11 điều kiện khác nhau ( cnt):

cnt <- c(0, 82, 163, 242, 318, 390, 458, 521, 578, 628, 673)

Đầu tiên tôi đã cố gắng để phù hợp với một mô hình probit và một mô hình logit. Mới đây tôi đã tìm thấy trong tài liệu một phương trình khác phù hợp với dữ liệu tương tự với tôi, vì vậy tôi đã cố gắng khớp dữ liệu của mình, sử dụng nlshàm, theo phương trình đó (nhưng tôi không đồng ý với điều đó, và tác giả không giải thích tại sao anh ta đã sử dụng phương trình đó).

Đây là mã cho ba mô hình tôi nhận được:

resp.mat <- as.matrix(cbind(corr/10, (100-corr)/10))
ddprob.glm1 <- glm(resp.mat ~ cnt, family = binomial(link = "logit"))
ddprob.glm2 <- glm(resp.mat ~ cnt, family = binomial(link = "probit"))

ddprob.nls <- nls(corr ~ 100 / (1 + exp(k*(AMP-cnt))), start=list(k=0.01, AMP=5))

Bây giờ tôi vẽ dữ liệu và ba đường cong được trang bị:

pcnt <- seq(min(cnt), max(cnt), len = max(cnt)-min(cnt)) 
pred.glm1 <- predict(ddprob.glm1, data.frame(cnt = pcnt), type = "response", se.fit=T) 
pred.glm2 <- predict(ddprob.glm2, data.frame(cnt = pcnt), type = "response", se.fit=T) 
pred.nls <- predict(ddprob.nls, data.frame(cnt = pcnt), type = "response", se.fit=T)

plot(cnt, corr, xlim=c(0,673), ylim = c(0, 100), cex=1.5)
lines(pcnt, pred.nls, lwd = 2, lty=1, col="red", xlim=c(0,673))
lines(pcnt, pred.glm2$fit*100, lwd = 2, lty=1, col="black", xlim=c(0,673)) #$
lines(pcnt, pred.glm1$fit*100, lwd = 2, lty=1, col="green", xlim=c(0,673))

Bây giờ, tôi muốn biết: mô hình tốt nhất cho dữ liệu của tôi là gì?

probit
logit
nls

LogLik cho ba mô hình là:

> logLik(ddprob.nls)
'log Lik.' -33.15399 (df=3)
> logLik(ddprob.glm1)
'log Lik.' -9.193351 (df=2)
> logLik(ddprob.glm2)
'log Lik.' -10.32332 (df=2)

LogLik có đủ để chọn mô hình tốt nhất không? (Nó sẽ là mô hình logit, phải không?) Hoặc có điều gì khác tôi cần tính toán không?

— Tommada
nguồn

Tôi đã viết về việc lựa chọn giữa logit & probit ở đây , mà bạn có thể muốn đọc (mặc dù, nlsnó khác biệt & không được đề cập ở đó).

— gung - Tái lập Monica

@gung Trước đây tôi đã đọc lời giải thích tuyệt vời của bạn ở đó, cảm ơn! Vấn đề của tôi là đặc biệt liên quan đến nlsmô hình và so sánh với glm. Đây là lý do tại sao tôi (lại) đăng một câu hỏi tương tự :)

— Tommaso

Tôi không chắc lắm về điều đó nls, chúng tôi sẽ xem mọi người nói gì. Đối với GLiM, tôi sẽ nói rằng bạn nên sử dụng logit nếu bạn nghĩ rằng các đồng biến của bạn kết nối trực tiếp với phản hồi và & probit nếu bạn nghĩ rằng nó được trung gian bởi một biến phân phối thông thường tiềm ẩn.

— gung - Phục hồi Monica

Xin chào @Tommaso, tôi bối rối về quy tắc ngón tay cái mà bạn trích dẫn từ bài viết đến từ đâu, nhưng tôi thực sự đã không nhấp vào liên kết vì vậy tôi sẽ không phán xét điều đó. Tôi muốn nói rằng mô hình logistic là tốt bởi vì các hệ số có một cách hiểu tốt - như tỷ lệ tỷ lệ cược log. Khi bạn đang cố gắng thực hiện phân tách phương sai (ví dụ: nếu bạn có dữ liệu phân cụm và đang cố gắng định lượng mức độ phụ thuộc trong dữ liệu), mô hình probit có một số tính chất tốt, vì các mối tương quan trên liên tục bên dưới (bình thường, như đã chỉ ra ra) quy mô, được xác định.

— Macro

Các loglik bạn nhận được từ R ở trên KHÔNG thể so sánh giữa các loại mô hình khác nhau (chúng bỏ các hằng số không phụ thuộc vào tham số!), Vì vậy không có ích gì cho bạn ở đây.

— kjetil b halvorsen

Câu hỏi về việc sử dụng mô hình nào có liên quan đến mục tiêu phân tích.

Nếu mục tiêu là phát triển một trình phân loại để dự đoán kết quả nhị phân, thì (như bạn có thể thấy), ba mô hình này đều gần giống nhau và cung cấp cho bạn xấp xỉ cùng một phân loại. Điều đó làm cho nó trở thành một điểm cần thiết vì bạn không quan tâm mô hình nào phát triển trình phân loại của mình và bạn có thể sử dụng xác thực chéo hoặc xác thực mẫu tách để xác định mô hình nào hoạt động tốt nhất trong dữ liệu tương tự.

Trong suy luận, tất cả các mô hình ước tính các tham số mô hình khác nhau. Tất cả ba mô hình hồi quy là các trường hợp đặc biệt của GLM sử dụng hàm liên kết và cấu trúc phương sai để xác định mối quan hệ giữa kết quả nhị phân và (trong trường hợp này) là một công cụ dự đoán liên tục. Mô hình hồi quy logistic và NLS sử dụng cùng một hàm liên kết (logit) nhưng NLS giảm thiểu lỗi bình phương trong khớp đường cong S trong khi hồi quy logistic là ước tính khả năng tối đa của dữ liệu mô hình theo giả định của mô hình tuyến tính cho xác suất mô hình và phân phối nhị phân của các kết quả quan sát được. Tôi không thể nghĩ ra lý do tại sao chúng tôi coi NLS là hữu ích cho suy luận.

Hồi quy probit sử dụng một hàm liên kết khác là hàm phân phối chuẩn tích lũy. "Chỉnh sửa" này nhanh hơn một logit và thường được sử dụng để suy luận về dữ liệu nhị phân được coi là ngưỡng nhị phân của các kết quả phân phối thông thường liên tục không quan sát được.

Theo kinh nghiệm, mô hình hồi quy logistic được sử dụng thường xuyên hơn để phân tích dữ liệu nhị phân vì hệ số mô hình (tỷ lệ chênh lệch) rất dễ diễn giải, đây là một kỹ thuật khả năng tối đa và có đặc tính hội tụ tốt.

— Adam
nguồn