Tôi có một bộ dữ liệu với 9 biến độc lập liên tục. Tôi đang cố gắng chọn trong số các biến này để khớp một mô hình với một biến phần trăm (phụ thuộc) , Score
. Thật không may, tôi biết sẽ có sự cộng tác nghiêm trọng giữa một số biến.
Tôi đã thử sử dụng stepAIC()
hàm trong R để chọn biến, nhưng phương thức đó, thật kỳ lạ, có vẻ nhạy cảm với thứ tự các biến được liệt kê trong phương trình ...
Đây là mã R của tôi (vì đó là dữ liệu tỷ lệ phần trăm, tôi sử dụng chuyển đổi logit cho Điểm):
library(MASS)
library(car)
data.tst = read.table("data.txt",header=T)
data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 +
Var8 + Var9, data = data.tst)
step = stepAIC(data.lm, direction="both")
summary(step)
Vì một số lý do, tôi thấy rằng các biến được liệt kê ở đầu phương trình cuối cùng được chọn bởi stepAIC()
hàm và kết quả có thể được xử lý bằng cách liệt kê, ví dụ, Var9
trước tiên (sau dấu ngã).
Một cách hiệu quả hơn (và ít gây tranh cãi) để phù hợp với một mô hình ở đây là gì? Tôi thực sự không quyết định sử dụng hồi quy tuyến tính: điều duy nhất tôi muốn là có thể hiểu được trong số 9 biến nào thực sự thúc đẩy sự biến đổi của Score
biến. Tốt hơn là, đây sẽ là một phương pháp nào đó có tiềm năng mạnh mẽ cho sự cộng tác trong 9 biến này.
Score
biến", đó là câu mà tôi có thể đã quá tập trung vào. Với sự hiện diện của sự cộng tác mạnh mẽ, Lasso sẽ không giúp đỡ điều đó, ít nhất là trong những diễn giải chặt chẽ hơn về nhận xét của OP.