Hoàn cảnh của tôi:
- cỡ mẫu nhỏ: 116
- biến kết quả nhị phân
- danh sách dài các biến giải thích: 44
- các biến giải thích không đến từ đỉnh đầu của tôi; sự lựa chọn của họ dựa trên tài liệu.
- hầu hết các trường hợp trong mẫu và hầu hết các biến đều thiếu giá trị.
Phương pháp lựa chọn tính năng được chọn: LASSO
Gói glmnet của R sẽ không cho phép tôi chạy thói quen glmnet, rõ ràng là do sự tồn tại của các giá trị bị thiếu trong tập dữ liệu của tôi. Dường như có nhiều phương pháp khác nhau để xử lý dữ liệu bị thiếu, vì vậy tôi muốn biết:
- LASSO có áp đặt bất kỳ hạn chế nào về phương pháp buộc tội mà tôi có thể sử dụng không?
- Điều gì sẽ là đặt cược tốt nhất cho phương pháp buộc tội? Lý tưởng nhất, tôi cần một phương pháp mà tôi có thể chạy trên SPSS (tốt nhất là) hoặc R.
CẬP NHẬT1: Rõ ràng từ một số câu trả lời dưới đây rằng tôi đã giải quyết các vấn đề cơ bản hơn trước khi xem xét các phương pháp buộc tội. Tôi muốn thêm vào đây những câu hỏi mới liên quan đến điều đó. Trên câu trả lời cho thấy mã hóa là giá trị không đổi và tạo ra một biến mới để xử lý các giá trị 'không áp dụng' và việc sử dụng lasso nhóm:
- Bạn có nói rằng nếu tôi sử dụng nhóm LASSO, tôi sẽ có thể sử dụng phương pháp tiếp cận được đề xuất cho các dự đoán liên tục cũng cho các dự đoán phân loại? Nếu vậy, tôi cho rằng nó sẽ tương đương với việc tạo ra một thể loại mới - tôi cảnh giác rằng điều này có thể giới thiệu sự thiên vị.
- Có ai biết gói glmnet của R có hỗ trợ nhóm LASSO không? Nếu không, có ai đề nghị một cái khác kết hợp với hồi quy logistic không? Một số tùy chọn đề cập đến nhóm LASSO có thể được tìm thấy trong kho CRAN, có đề xuất nào phù hợp nhất cho trường hợp của tôi không? Có lẽ SGL?
Đây là phần tiếp theo của một câu hỏi trước đây của tôi ( Làm thế nào để chọn một tập hợp con các biến từ danh sách dài ban đầu của tôi để thực hiện phân tích hồi quy logistic? ).
OBS: Tôi không phải là một nhà thống kê.