Hồi quy bội với các tập dữ liệu nhỏ


8

Tôi có một bộ dữ liệu nghiên cứu trường hợp dự án cho một loại phương pháp nghiên cứu mới cho các cơ quan Chính phủ để hỗ trợ các hoạt động ra quyết định. Nhiệm vụ của tôi là phát triển một phương pháp ước tính dựa trên kinh nghiệm trong quá khứ cho các dự án trong tương lai cho mục đích ước tính.

Tập dữ liệu của tôi giới hạn ở 50 trường hợp. Tôi có hơn 30 dự đoán (tiềm năng) được ghi lại và một biến trả lời (tức là mất hàng giờ để hoàn thành dự án).

Không phải tất cả các yếu tố dự đoán đều có ý nghĩa, sử dụng các kỹ thuật lựa chọn theo từng bước tôi đang mong đợi số lượng biến dự đoán có thể nằm trong phạm vi biến 5-10. Mặc dù tôi đang vật lộn để có được một bộ dự đoán bằng cách sử dụng các thẩm định tiêu chuẩn trong các công cụ như PASW (SPSS).

Tôi nhận thức rõ về tất cả các tài liệu nói về quy tắc ngón tay cái cho kích thước mẫu và biến dự đoán theo tỷ lệ trường hợp. Vấn đề nan giải của tôi là phải mất gần 10 năm để thu thập 50 trường hợp như vậy, vì vậy nó sẽ tốt như nó sẽ có được.

Câu hỏi của tôi là tôi nên làm gì để tận dụng tối đa bộ mẫu nhỏ này?

Đó là bất kỳ tài liệu tham khảo tốt để đối phó với các bộ smaple nhỏ? Thay đổi về ý nghĩa giá trị p? Thay đổi cách tiếp cận lựa chọn từng bước? Sử dụng các biến đổi như trung tâm hoặc đăng nhập?

Bất kỳ lời khuyên được đánh giá cao.

Câu trả lời:


3

Khi bạn muốn chọn một vài yếu tố dự đoán từ tập dữ liệu của mình, tôi sẽ đề xuất một hồi quy tuyến tính đơn giản với hình phạt hoặc sử dụng LASSO (hồi quy tuyến tính bị phạt). Trường hợp của bạn phù hợp với hồi quy với hình phạt LASSO là cỡ mẫu của bạn, và số lượng dự đoán, . Thay đổi tham số điều chỉnh sẽ chọn số lượng dự đoán bạn muốn chọn. L1n= =50p= =30

Nếu bạn có thể cung cấp chi tiết về việc phân phối các biến của mình, tôi có thể cụ thể hơn.

Tôi không sử dụng SPSS, nhưng điều này có thể được thực hiện dễ dàng Rbằng cách sử dụng glmnethàm trong gói cùng tên. Nếu bạn xem trong hướng dẫn, nó chứa một ví dụ chung (ví dụ đầu tiên, đối với trường hợp gaussian ) sẽ giải quyết vấn đề của bạn. Tôi chắc chắn, giải pháp tương tự phải tồn tại trong SPSS.


Các phản ứng rất nhiều sai lệch tiêu cực. Với sự hoành tráng của các dự án khoảng 2500 giờ và một cái đuôi kéo dài đến một vài dự án 10000-14000 giờ. Các dự báo liên tục (tỷ lệ) là một hỗn hợp của các phân phối trong khi một số dự đoán là phân loại (danh nghĩa). Những loại phân phối nào được yêu cầu cho LASSO (hoặc những gì khác bạn cần biết từ tôi)? - btw cảm ơn đã phản hồi!
Shane

||glmnetglmnetglmL1

Kiểm tra SPSS giúp nó nói về một tính năng gọi là "Chính quy hồi quy phân loại" hoặc CATREG. Nó dường như giải quyết các phương pháp Lasso và Ridge. Vì một số lý do, nó không được kích hoạt trong phiên bản của tôi. Nếu bất cứ ai biết tại sao tôi được đánh giá cao.
Shane

@Shane Nếu bộ nhớ của tôi không làm tôi thất vọng, tôi đã thấy @AndyW đăng mã SPSS ưa thích . Nó (mã) gây ấn tượng cho tôi mọi lúc!
suncoolsu

@Shane, có vẻ như lệnh CATREG đã xuất hiện khá nhiều phiên bản SPSS, nhưng có lẽ bạn cần một số mô-đun / giấy phép hồi quy nâng cao để sử dụng nó. Trong phiên bản hiện tại, bạn cần bộ công cụ "cao cấp" để có được chức năng này. Tôi chỉ đề nghị kiểm tra các gói R suncoolsu đề cập (miễn phí!).
Andy W
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.