Tôi muốn tìm các yếu tố dự đoán cho một biến phụ thuộc liên tục trong số 30 biến độc lập. Tôi đang sử dụng hồi quy Lasso như được triển khai trong gói glmnet trong R. Đây là một số mã giả:
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
Câu hỏi của tôi là làm thế nào để giải thích đầu ra:
Có đúng không khi nói rằng trong đầu ra cuối cùng, tất cả các yếu tố dự đoán cho thấy một hệ số khác 0 đều có liên quan đến biến phụ thuộc?
Đó sẽ là một báo cáo đầy đủ trong bối cảnh của một ấn phẩm tạp chí? Hoặc dự kiến sẽ cung cấp số liệu thống kê kiểm tra cho tầm quan trọng của các hệ số? (Bối cảnh là di truyền của con người)
Có hợp lý để tính giá trị p hoặc thống kê kiểm tra khác để xác nhận tầm quan trọng không? Làm thế nào điều đó có thể? Là một thủ tục được thực hiện trong R?
Liệu một biểu đồ hồi quy đơn giản (các điểm dữ liệu được vẽ với sự phù hợp tuyến tính) cho mọi dự đoán có phải là một cách phù hợp để trực quan hóa dữ liệu này không?
Có lẽ ai đó có thể cung cấp một số ví dụ dễ dàng về các bài báo được xuất bản cho thấy việc sử dụng Lasso trong bối cảnh của một số dữ liệu thực & cách báo cáo điều này trong một tạp chí?
cv
cho bước dự đoán là tốt?