Làm thế nào để phát hiện khi mô hình hồi quy quá phù hợp?


14

Khi bạn là người thực hiện công việc, nhận thức được những gì bạn đang làm bạn phát triển ý thức khi bạn quá phù hợp với mô hình. Đối với một điều, bạn có thể theo dõi xu hướng hoặc suy giảm trong Quảng trường R đã điều chỉnh của mô hình. Bạn cũng có thể theo dõi sự suy giảm tương tự trong các giá trị p của các hệ số hồi quy của các biến chính.

Nhưng, khi bạn vừa đọc một người khác nghiên cứu và bạn không có cái nhìn sâu sắc về quy trình phát triển mô hình nội bộ của riêng họ, làm thế nào bạn có thể phát hiện rõ ràng nếu một mô hình quá phù hợp hay không.


Chỉ cần đưa ra một vài ý tưởng về chủ đề này, nếu nghiên cứu tiết lộ số liệu thống kê hồi quy tiêu chuẩn, bạn có thể tập trung vào số liệu thống kê t và giá trị p của các hệ số. Nếu RSapes của mô hình cao; nhưng, một hoặc nhiều biến có tại stat <2.0; đây có thể là một lá cờ đỏ Ngoài ra, nếu dấu của các hệ số trên một số biến bất chấp logic có lẽ là một cờ đỏ khác. Nếu nghiên cứu không tiết lộ thời gian chờ đợi cho mô hình, đó có thể là một lá cờ đỏ khác. Hy vọng, bạn sẽ có những ý tưởng khác và tốt hơn.
Sympa

Một cách là để xem cách mô hình thực hiện trên dữ liệu khác (nhưng tương tự).
Shane

Câu trả lời:


15

Xác nhận chéo và chính quy hóa là các kỹ thuật khá phổ biến để ngăn chặn quá mức. Để nhanh chóng, tôi khuyên các slide hướng dẫn của Andrew Moore về việc sử dụng xác thực chéo ( gương ) - đặc biệt chú ý đến các cảnh báo. Để biết thêm chi tiết, chắc chắn đọc các chương 3 và 7 của EOSL , bao gồm chủ đề và các vấn đề liên quan ở độ sâu tốt.


2
Ồ, cảm ơn hướng dẫn của Andrew Moore về xác nhận chéo là đẳng cấp thế giới.
Sympa

7

Khi tôi tự lắp một mô hình, tôi thường sử dụng các tiêu chí thông tin trong quá trình điều chỉnh, chẳng hạn như AIC hoặc BIC , hoặc các thử nghiệm tỷ lệ khả năng thay thế cho các mô hình phù hợp dựa trên khả năng tối đa hoặc F-test cho các mô hình phù hợp dựa trên bình phương tối thiểu.

Tất cả đều giống nhau về mặt khái niệm ở chỗ chúng xử phạt các tham số bổ sung. Họ đặt ngưỡng "sức mạnh giải thích bổ sung" cho mỗi tham số mới được thêm vào mô hình. Chúng đều là một hình thức chính quy .

Đối với các mô hình của người khác, tôi xem phần phương pháp để xem các kỹ thuật đó có được sử dụng không và cũng sử dụng quy tắc ngón tay cái, chẳng hạn như số lượng quan sát trên mỗi tham số - nếu có khoảng 5 (hoặc ít hơn) các quan sát cho mỗi tham số tôi bắt đầu tự hỏi.

Luôn nhớ rằng một nhu cầu biến không cần phải "đáng kể" trong một mô hình là quan trọng. Tôi có thể là một người gây nhiễu và nên được đưa vào trên cơ sở đó nếu mục tiêu của bạn là ước tính ảnh hưởng của các biến khác.


Cảm ơn các liên kết đến các bài kiểm tra AIC và BIC. Có phải họ thêm nhiều giá trị so với Quảng trường R đã điều chỉnh, điều tương tự bằng cách xử phạt các mô hình để thêm biến?
Sympa

1
@Gaeten, bình phương R đã điều chỉnh sẽ tăng khi kiểm tra F của mô hình trước so với sau mô hình là đáng kể, vì vậy chúng tương đương nhau, ngoại trừ việc tính bình phương R bình phương không điều chỉnh sẽ không trả về giá trị p.
Thylacoleo

1
@Gaeten - AIC & BIC có tính tổng quát cao hơn so với các thử nghiệm F và bình phương R được điều chỉnh thường được giới hạn ở các mô hình phù hợp với các bình phương tối thiểu. AIC & BIC có thể được sử dụng cho bất kỳ mô hình nào, trong đó khả năng có thể được tính toán và mức độ tự do có thể được biết (hoặc ước tính).
Thylacoleo

Kiểm tra một tập hợp các biến không phải là một hình thức chính quy (co rút). Và thử nghiệm mang lại cho người ta sự cám dỗ để loại bỏ các biến, điều này không liên quan gì đến việc giảm quá mức.
Frank Harrell

@FrankHarrell Bạn có thể nói rõ hơn về nhận xét cũ này của bạn không? Dường như với tôi rằng việc loại bỏ một biến sẽ làm giảm quá mức, tất cả những thứ khác đều bằng nhau, vì mức độ tự do có sẵn để vượt quá mức giảm. Tôi chắc chắn tôi đang thiếu một số sắc thái ở đây.
Lepidopterist

5

Tôi sẽ đề nghị rằng đây là một vấn đề với cách báo cáo kết quả. Không phải để "đánh trống Bayes" nhưng tiếp cận sự không chắc chắn của mô hình từ quan điểm của Bayes như một vấn đề suy luận sẽ giúp ích rất nhiều ở đây. Và nó cũng không phải là một thay đổi lớn. Nếu báo cáo chỉ đơn giản chứa xác suất mô hình là đúng thì điều này sẽ rất hữu ích. Đây là một số lượng dễ dàng để ước tính bằng BIC. Gọi BIC cho mô hình mth . Sau đó, xác suất mà mô hình mth là mô hình "đúng", với điều kiện là các mô hình M phù hợp (và một trong các mô hình là đúng) được đưa ra bởi:BICmM

P(model m is true|one of the M models is true)wmexp(12BICm)j=1Mwjexp(12BICj)
=11+jmMwjwmexp(12(BICjBICm))

Where wj is proportional to the prior probability for the jth model. Note that this includes a "penalty" for trying to many models - and the penalty depends on how well the other models fit the data. Usually you will set wj=1, however, you may have some "theoretical" models within your class that you would expect to be better prior to seeing any data.

Now if somebody else doesn't report all the BIC's from all the models, then I would attempt to infer the above quantity from what you have been given. Suppose you are given the BIC from the model - note that BIC is calculable from the mean square error of the regression model, so you can always get BIC for the reported model. Now if we take the basic premise that the final model was chosen from the smallest BIC then we have BICfinal<BICj. Now, suppose you were told that "forward" or "forward stepwise" model selection was used, starting from the intercept using p potential variables. If the final model is of dimension d, then the procedure must have tried at least

M1+p+(p1)++(pd+1)=1+p(p1)(pd)(pd1)2

different models (exact for forward selection), If the backwards selection was used, then we know at least

M1+p+(p1)++(d+1)=1+p(p1)d(d1)2

Models were tried (the +1 comes from the null model or the full model). Now we could try an be more specific, but these are "minimal" parameters which a standard model selection must satisfy. We could specify a probability model for the number of models tried M and the sizes of the BICj - but simply plugging in some values may be useful here anyway. For example suppose that all the BICs were λ bigger than the one of the model chosen so that BICm=BICjλ, then the probability becomes:

11+(M1)exp(λ2)

So what this means is that unless λ is large or M is small, the probability will be small also. From an "over-fitting" perspective, this would occur when the BIC for the bigger model is not much bigger than the BIC for the smaller model - a non-neglible term appears in the denominator. Plugging in the backward selection formula for M we get:

11+p(p1)d(d1)2exp(λ2)

Now suppose we invert the problem. say p=50 and the backward selection gave d=20 variables, what would λ have to be to make the probability of the model greater than some value P0? we have

λ>2log(2(1P0)P0[p(p1)d(d1)])

Setting P0=0.9 we get λ>18.28 - so BIC of the winning model has to win by a lot for the model to be certain.


+1, this is really clever. Is this published somewhere? Is there an 'official' reference for this?
gung - Reinstate Monica

@gung - why thank you. Unfortunately, this was a "back of the envelope" answer. I'm sure there's problems with it, if you were to investigate in more detail.
probabilityislogic
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.