Tôi có một bộ dự đoán lớn (hơn 43.000) để dự đoán một biến phụ thuộc có thể lấy 2 giá trị (0 hoặc 1). Số lượng quan sát là hơn 45.000. Hầu hết các dự đoán là unigram, bigram và trigram của các từ, vì vậy có mức độ cộng tác cao trong số đó. Có rất nhiều sự thưa thớt trong bộ dữ liệu của tôi. Tôi đang sử dụng hồi quy logistic từ gói glmnet, hoạt động cho loại dữ liệu tôi có. Vấn đề của tôi là làm thế nào tôi có thể báo cáo ý nghĩa giá trị p của các yếu tố dự đoán. Tôi có được hệ số beta, nhưng có cách nào để khẳng định rằng các hệ số beta có ý nghĩa thống kê không?
Đây là mã của tôi:
library('glmnet')
data <- read.csv('datafile.csv', header=T)
mat = as.matrix(data)
X = mat[,1:ncol(mat)-1]
y = mat[,ncol(mat)]
fit <- cv.glmnet(X,y, family="binomial")
Một câu hỏi khác là: Tôi đang sử dụng hình phạt alpha = 1, lasso mặc định gây ra vấn đề bổ sung rằng nếu hai yếu tố dự đoán kết hợp thì Lasso sẽ chọn một trong số chúng một cách ngẫu nhiên và gán trọng số không beta cho cái còn lại. Tôi cũng đã thử với hình phạt sườn núi (alpha = 0) chỉ định các hệ số tương tự cho các biến có tương quan cao thay vì chọn một trong số chúng. Tuy nhiên, mô hình với hình phạt Lasso cho tôi độ lệch thấp hơn nhiều so với mô hình có hình phạt sườn núi. Có cách nào khác để tôi có thể báo cáo cả hai yếu tố dự đoán có tính cộng tác cao không?