Hiện đại, dễ dàng sử dụng thay thế để hồi quy từng bước là gì?


76

Tôi có một bộ dữ liệu với khoảng 30 biến độc lập và muốn xây dựng một mô hình tuyến tính tổng quát (GLM) để khám phá mối quan hệ giữa chúng và biến phụ thuộc.

Tôi biết rằng phương pháp tôi được dạy cho tình huống này, hồi quy từng bước, hiện được coi là một tội lỗi thống kê .

Những phương pháp hiện đại của lựa chọn mô hình nên được sử dụng trong tình huống này?


4
Những người khác đề cập đến các quy trình thống kê có thể hữu ích, nhưng trước tiên tôi sẽ hỏi liệu bạn có bất kỳ lý thuyết nào về sức mạnh và hình dạng của mối quan hệ giữa các biến không. Mẫu của bạn lớn cỡ nào? Bạn có lý do để tránh các mô hình phức tạp?
Michael Giám mục

2
Đã có ai coi mô hình trung bình là một giải pháp thay thế để chống lại vấn đề sai lệch trước thử nghiệm và các vấn đề về đặc tả sai chưa? Nói một cách đơn giản tất cả các biến là các yếu tố dự đoán tiềm năng và bạn có thể ước tính xác suất để chúng có ích. Do đó, công cụ ước tính kết hợp không chỉ cải thiện hiệu suất dự báo mà còn tạo ra các ước tính thuộc tính tốt cho các tham số của các biến trong "phạm vi".
Dmitrij Celov

1
Co ngót. Không ai sử dụng từng bước nữa, hy vọng
Aksakal

Câu trả lời:


56

Có một số lựa chọn thay thế cho Hồi quy Stepwise . Sử dụng nhiều nhất tôi đã thấy là:

  • Ý kiến ​​chuyên gia để quyết định các biến cần đưa vào mô hình.
  • Hồi quy một phần vuông nhỏ nhất . Về cơ bản, bạn nhận được các biến tiềm ẩn và thực hiện hồi quy với chúng. Bạn cũng có thể tự làm PCA và sau đó sử dụng các biến chính.
  • Toán tử co rút tuyệt đối và chọn lọc (LASSO).

Cả PLS RegressionLASSO đều được triển khai trong các gói R như

PLS : http://cran.r-project.org/web/packages/pls/

LARS : http://cran.r-project.org/web/packages/lars/index.html

Nếu bạn chỉ muốn khám phá mối quan hệ giữa biến phụ thuộc của bạn và các biến độc lập (ví dụ: bạn không cần kiểm tra ý nghĩa thống kê), tôi cũng sẽ đề xuất các phương pháp Machine Learning như Rừng ngẫu nhiên hoặc Cây phân loại / Cây hồi quy . Rừng ngẫu nhiên cũng có thể xấp xỉ các mối quan hệ phi tuyến tính phức tạp giữa các biến phụ thuộc và biến độc lập của bạn, điều này có thể không được tiết lộ bằng các kỹ thuật tuyến tính (như hồi quy tuyến tính ).

Điểm khởi đầu tốt cho Machine Learning có thể là chế độ xem tác vụ Machine Learning trên CRAN:

Chế độ xem tác vụ của Machine Learning : http://cran.r-project.org/web/view/MachineLearning.html


10
Gói glmnet cũng là một triển khai rất nhanh của Lasso
David J. Harris

2
Tôi sẽ cảnh báo rằng trong cộng đồng biến tiềm ẩn, PLSers tạo thành một nhóm rất cô lập của riêng họ, và không bao giờ có thể thâm nhập vào tài liệu nghiêm túc (ví dụ, ý tôi là, lý thuyết tiệm cận của những người ước lượng bình phương nhỏ nhất trong các tác phẩm của Michael Browne, Peter Bentler, Albert Satorra và Alex Shapiro, và mô hình biến công cụ của Ken Bollen, để đặt tên cho một vài cái quan trọng nhất). Kỳ lạ thay, PLS dường như là một phương pháp có thể chấp nhận được trong các vòng thống kê, thường duy trì tiêu chuẩn nghiêm ngặt cao hơn so với cộng đồng mô hình biến tiềm ẩn.
StasK

6
Các yếu tố của học thống kê có so sánh các phương pháp lựa chọn biến đổi và phương pháp thu nhỏ: (OLS,) tập hợp con tốt nhất, sườn núi, lasso, PLS, PCR.
cbeleites

19

Một tùy chọn khác bạn có thể xem xét để lựa chọn và chính quy hóa là lưới đàn hồi . Nó được triển khai trong R thông qua gói glmnet .


16

Trung bình mô hình là một cách để đi (một cách tiếp cận lý thuyết thông tin). Glmulti gói R có thể thực hiện các mô hình tuyến tính cho mọi kết hợp các biến dự đoán và thực hiện lấy trung bình mô hình cho các kết quả này.

Xem http://sites.google.com/site/mcgillbgsa/workairs/glmulti

Đừng quên điều tra cộng tuyến giữa các biến dự đoán trước. Các yếu tố lạm phát phương sai (có sẵn trong gói R "xe hơi") rất hữu ích ở đây.


Cảm ơn. Liệu nó thực sự phù hợp với tất cả các mô hình có thể? Ngay cả khi không có tương tác, đó là khoảng một tỷ mô hình trong trường hợp này.
Peter Ellis

AFAIK có thể, nhưng có một tùy chọn thuật toán di truyền giúp giảm đáng kể thời gian cần thiết để đánh giá tất cả các mô hình. Xem www.jstatsoft.org/v34/i12/apers
OliP

3
Ngoài ra MuMIn, AICcmodavgcác gói, mặc dù glmultilà thông minh hơn về bộ mô hình lớn.
Ben Bolker

8

@johannes đã đưa ra một câu trả lời tuyệt vời. Nếu bạn là người dùng SAS, thì LASSO có sẵn thông qua PROC GLMSELECT và bình phương tối thiểu một phần thông qua PROC PLS.

David Cassell và tôi đã trình bày về LASSO (và Least Angle Regression) tại một vài nhóm người dùng SAS. Nó có sẵn ở đây


7

Thảo luận thú vị. Để gắn nhãn hồi quy từng bước vì tội lỗi thống kê là một chút của một tuyên bố tôn giáo - miễn là người ta biết họ đang làm gì và các mục tiêu của bài tập là rõ ràng, đó chắc chắn là một cách tiếp cận tốt với các giả định của riêng mình và chắc chắn là thiên vị, và không đảm bảo sự tối ưu, vv Tuy nhiên, điều tương tự có thể được nói về rất nhiều điều khác chúng ta làm. Tôi chưa thấy CCA được đề cập, trong đó giải quyết vấn đề cơ bản hơn về cấu trúc tương quan trong không gian đồng biến, đảm bảo tính tối ưu, đã xuất hiện khá nhiều và nó có phần nào đó trong quá trình học tập. Nó được thực hiện trên nhiều nền tảng bao gồm R.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.