Là một biến có ý nghĩa trong một mô hình hồi quy tuyến tính?


9

Tôi đã có một mô hình hồi quy tuyến tính với các quan sát mẫu và biến và tôi muốn biết:

  1. Liệu một biến cụ thể có đủ ý nghĩa để duy trì trong mô hình hay không.
  2. Liệu một biến khác (có quan sát) có nên được đưa vào mô hình hay không.

Thống kê nào có thể giúp tôi ra? Làm thế nào có thể có được chúng một cách hiệu quả nhất?

Câu trả lời:


26

Ý nghĩa thống kê thường không phải là một cơ sở tốt để xác định xem có nên đưa vào một biến trong mô hình hay không. Kiểm tra thống kê được thiết kế để kiểm tra các giả thuyết, không chọn các biến. Tôi biết rất nhiều sách giáo khoa thảo luận về lựa chọn biến bằng các bài kiểm tra thống kê, nhưng nói chung đây là một cách tiếp cận tồi. Xem cuốn sách Chiến lược mô hình hóa hồi quy của Mitchell để biết một số lý do tại sao. Ngày nay, lựa chọn biến dựa trên AIC (hoặc một cái gì đó tương tự) thường được ưa thích.


Trên thực tế, theo trí nhớ tốt nhất của tôi, Harrell không khuyến khích sử dụng AIC. Tôi đoán xác nhận chéo có lẽ sẽ là phương pháp an toàn nhất xung quanh.
Tal Galili

1
AIC tương đương với CV. Xem câu trả lời cho stats.stackexchange.com/questions/577/ . Tôi đã kiểm tra Mitchell trước khi tôi viết câu trả lời đó và tôi không thấy bất kỳ sự nản lòng nào của AIC. Anh ta cảnh báo về việc kiểm tra ý nghĩa sau khi lựa chọn biến, với AIC hoặc bất kỳ phương pháp nào khác.
Rob Hyndman

@Tal: Có lẽ từ một trong những bài báo của anh ấy chứ không phải cuốn sách RMS, tôi nhớ rằng Gurell phản đối việc sử dụng AIC vì chỉ đơn giản là chọn trong số rất nhiều mô hình. Tôi nghĩ rằng quan điểm của ông là bạn phải thêm một biến tại một thời điểm và so sánh hai mô hình một cách có phương pháp hoặc sử dụng một số chiến lược tương tự. (Để rõ ràng, điều này phù hợp với câu trả lời của Rob.)
ars

Thực hiện tìm kiếm nhanh, tôi thấy Mitchell viết "Cảnh giác khi lựa chọn mô hình trên cơ sở các giá trị P, bình phương R, bình phương R một phần, AIC, BIC, hệ số hồi quy hoặc Cp của Mallows". Ông đã viết rằng vào ngày 14/08/08, trên một danh sách gửi thư có tiêu đề [R] Lấy giá trị p cho các hệ số từ hàm LRM (Thiết kế gói) - bản rõ. Tôi đoán tôi đã hiểu nhầm ý của anh ấy.
Tal Galili

2
@Tal, @Rob: Trong chủ đề đó, anh ta nói "Hãy chắc chắn sử dụng nguyên tắc phân cấp". Có lẽ đáng quan tâm, cuộc thảo luận này từ medstats (cuộn xuống để xem phản hồi của Mitchell
ars

4

Tôi thứ hai bình luận của Rob. Một lựa chọn ngày càng được ưa thích là bao gồm tất cả các biến của bạn và thu nhỏ chúng về 0. Xem Tibshirani, R. (1996). Thu hẹp hồi quy và chọn lọc qua phương pháp hồi quy tuyến tính nhiều biến có hiệu chỉnh mô hình.

http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf


1
Có cách nào để định lượng những gì "ngày càng được ưa thích" ngày nay không?
Tal Galili

Tôi nghĩ rằng nó được công nhận là đúng đắn hơn về mặt khoa học trong nhiều lĩnh vực theo nghĩa là phương pháp thu nhỏ được sử dụng nhiều hơn trong các bài báo thống kê được áp dụng gần đây hơn là phương pháp * .IC. Điều đó cho thấy một sự nhất trí - ít nhất là ngầm - lý thuyết.
user603

1
2p

3

Đối với phần 1, bạn đang tìm kiếm F-test . Tính tổng bình phương còn lại của bạn từ mỗi mô hình phù hợp và tính toán thống kê F, bạn có thể sử dụng để tìm giá trị p từ phân phối F hoặc một số phân phối null khác mà bạn tự tạo.


1

Một phiếu khác cho câu trả lời của Rob.

Ngoài ra còn có một số ý tưởng thú vị trong văn học "tầm quan trọng tương đối". Công việc này phát triển các phương pháp tìm cách xác định mức độ quan trọng liên quan đến từng dự đoán của một số ứng cử viên. Có phương pháp Bayes và Thường xuyên. Kiểm tra gói "relaimpo" trong R để biết các trích dẫn và mã.


1

Tôi cũng thích câu trả lời của Rob. Và, nếu bạn tình cờ sử dụng SAS chứ không phải R, bạn có thể sử dụng PROC GLMSELECT cho các mô hình sẽ được thực hiện với PROC GLM, mặc dù nó cũng hoạt động tốt đối với một số mô hình khác. Xem

Flom và Cassell "Dừng theo từng bước: Tại sao các phương pháp lựa chọn từng bước là xấu và những gì bạn nên sử dụng" được trình bày tại nhiều nhóm khác nhau, gần đây nhất, NESUG 2009

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.