Tôi đang tự hỏi làm thế nào để tiếp cận việc đào tạo và thử nghiệm đúng mô hình LASSO bằng glmnet trong R?
- Cụ thể, tôi tự hỏi làm thế nào để làm như vậy nếu thiếu bộ dữ liệu thử nghiệm bên ngoài bắt buộc tôi phải sử dụng xác thực chéo (hoặc phương pháp tương tự khác) để kiểm tra mô hình LASSO của tôi.
Hãy để tôi phá vỡ kịch bản của tôi:
Tôi chỉ có một bộ dữ liệu để thông báo và huấn luyện mô hình glmnet của mình. Do đó, tôi sẽ phải sử dụng xác thực chéo để phân tách dữ liệu của mình để tạo ra cách kiểm tra mô hình của mình.
Tôi đã sử dụng cv.glmnet
, theo chi tiết gói :
Liệu xác thực chéo k-gấp cho glmnet, tạo ra một âm mưu và trả về một giá trị cho lambda.
Là xác thực chéo được thực hiện
cv.glmnet
chỉ đơn giản là để chọn lambda tốt nhất, hay nó cũng phục vụ như một thủ tục xác thực chéo chung hơn?- Nói cách khác, tôi vẫn cần thực hiện một bước xác thực chéo khác để "kiểm tra" mô hình của mình chứ?
Tôi đang làm việc với giả định rằng, "vâng tôi làm."
Đó là trường hợp, làm thế nào để tôi tiếp cận xác nhận chéo cv.glmnet
mô hình của tôi ?
Tôi có phải làm như vậy bằng tay không, hoặc có lẽ là
caret
chức năng hữu ích cho các mô hình glmnet?Tôi có sử dụng hai "vòng lặp" đồng bộ xác thực chéo không? ... Tôi có sử dụng "vòng lặp bên trong" của CV thông qua
cv.glmnet
để xác định giá trị lambda tốt nhất trong mỗi k lần của "vòng lặp bên ngoài" của xử lý xác thực chéo k ?Nếu tôi xác thực chéo
cv.glmnet
mô hình đã xác thực chéo của mình , làm cách nào để cách ly mô hình "tốt nhất" (từ giá trị lambda "tốt nhất") từ mỗicv.glmnet
mô hình trong mỗi lần lặp lại "vòng lặp bên ngoài" khác của xác thực chéo?- Lưu ý: Tôi xác định mô hình "tốt nhất" là mô hình liên kết với một lambda mà tạo ra một MSE trong vòng 1 SE của tối thiểu ... đây là
$lambda.1se
trongcv.glmnet
mô hình.
- Lưu ý: Tôi xác định mô hình "tốt nhất" là mô hình liên kết với một lambda mà tạo ra một MSE trong vòng 1 SE của tối thiểu ... đây là
Bối cảnh:
Tôi đang cố gắng dự đoán tuổi cây ("tuổi") dựa trên đường kính cây ("D"), D ^ 2 và loài ("yếu tố (ĐẶC BIỆT)"). [kết quả phương trình: Age ~ D + factor(SPEC) + D^2
]. Tôi có ~ 50K hàng dữ liệu, nhưng dữ liệu theo chiều dọc (theo dõi các cá nhân theo thời gian) và bao gồm ~ 65 loài.