Tôi đang cố gắng thực hiện lựa chọn mô hình trên một số dự đoán ứng viên bằng LASSO với kết quả liên tục. Mục tiêu là chọn mô hình tối ưu với hiệu suất dự đoán tốt nhất, thường có thể được thực hiện bằng xác thực chéo K-Fold sau khi có được đường dẫn giải pháp của các tham số điều chỉnh từ LASSO. Vấn đề ở đây là dữ liệu từ một thiết kế khảo sát nhiều giai đoạn phức tạp (NHANES), với việc lấy mẫu và phân tầng cụm. Phần ước lượng không khó vì glmnet
trong R có thể lấy trọng lượng lấy mẫu. Nhưng phần xác nhận chéo không rõ ràng đối với tôi vì các quan sát bây giờ không còn là vấn đề nữa và làm thế nào để quy trình lấy mẫu có trọng số đại diện cho một dân số hữu hạn?
Vì vậy, câu hỏi của tôi là:
1) Làm thế nào để thực hiện xác nhận chéo K-gập với dữ liệu khảo sát phức tạp để chọn tham số điều chỉnh tối ưu? Cụ thể hơn, làm thế nào để phân vùng dữ liệu mẫu một cách thích hợp thành các tập huấn luyện và xác nhận? Và làm thế nào để xác định ước tính của lỗi dự đoán?
2) Có cách nào khác để chọn tham số điều chỉnh tối ưu không?