Tôi đang làm việc trên một dự án và cần các nguồn lực để giúp tôi tăng tốc.
Bộ dữ liệu là khoảng 35000 quan sát trên 30 biến. Khoảng một nửa các biến được phân loại với một số có nhiều giá trị khác nhau, nghĩa là nếu bạn chia các biến phân loại thành các biến giả, bạn sẽ có nhiều hơn 30 biến. Nhưng có lẽ vẫn theo thứ tự của một vài trăm max. (n> p).
Phản ứng mà chúng tôi muốn dự đoán là thứ tự với 5 cấp độ (1,2,3,4,5). Các dự đoán là một kết hợp của liên tục và phân loại, khoảng một nửa của mỗi. Đây là những suy nghĩ / kế hoạch của tôi cho đến nay: 1. Hãy coi phản ứng là hồi quy tuyến tính vanilla liên tục và chạy. 2. Chạy hồi quy logistic và probit danh nghĩa và thứ tự 3. Sử dụng MARS và / hoặc một hương vị khác của hồi quy phi tuyến tính
Tôi quen thuộc với hồi quy tuyến tính. MARS cũng đủ được mô tả bởi Hastie và Tibshirani. Nhưng tôi cảm thấy hụt hẫng khi nói đến logit / probit thông thường, đặc biệt là có rất nhiều biến số và một tập dữ liệu lớn.
Gói r glmnetcr dường như là đặt cược tốt nhất của tôi cho đến nay, nhưng tài liệu hầu như không đủ để đưa tôi đến nơi tôi cần.
Tôi có thể đi đâu để tìm hiểu thêm?