AIC hoặc p-value: chọn cái nào để chọn mô hình?


22

Tôi hoàn toàn mới với điều R này nhưng không chắc chắn nên chọn mô hình nào.

  1. Tôi đã thực hiện hồi quy từng bước để chọn từng biến dựa trên AIC thấp nhất. Tôi đã đưa ra 3 mô hình mà tôi không chắc đó là "tốt nhất".

    Model 1: Var1 (p=0.03) AIC=14.978
    Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543
    Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
    

    Tôi có xu hướng đi với Mô hình # 3 vì nó có AIC thấp nhất (tôi nghe âm là ok) và giá trị p vẫn còn khá thấp.

    Tôi đã chạy 8 biến như các yếu tố dự đoán của khối lượng nở và thấy rằng ba biến này là các biến dự đoán tốt nhất.

  2. Bước tiếp theo của tôi từng bước tôi chọn Mô hình 2 vì mặc dù AIC lớn hơn một chút nhưng các giá trị p đều nhỏ hơn. Bạn có đồng ý đây là tốt nhất?

    Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222)  AIC = 25.63
    Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056)                  AIC = 26.518
    Model 3: Var1 (p=0.258) + Var2 (p=0.0254)                                   AIC = 36.905
    

cảm ơn!


Bạn có thể cho chúng tôi biết sự khác biệt giữa (1) và (2)? Rõ ràng có gì đó đã thay đổi, bởi vì Mô hình 3 trong (1) và Mô hình 2 trong (2) giống hệt nhau về mặt danh nghĩa nhưng giá trị p và AIC khác nhau.
whuber

2
Câu hỏi này đã được đăng lại hai lần, điều đó có nghĩa là không chỉ chúng tôi phải đóng chúng mà còn cả (các) câu trả lời liên quan đã được cung cấp cho bạn. Bạn có thể vui lòng đăng ký tài khoản của mình (xem Câu hỏi thường gặp ) và chú ý đến chính sách đăng bài StackExchange trong tương lai không? Cảm ơn.
chl

@whuber, tôi sợ tôi không hiểu câu hỏi của bạn đầy đủ. Có lẽ tôi thiếu hiểu biết về thống kê. Nhưng để cố gắng làm rõ. Mô hình 1 có 4 biến, Mô hình 2 có 3 biến và Mô hình 3 có 2 biến. Các biến theo cùng một thứ tự trong mỗi mô hình (có nghĩa là biến một = temp trong mỗi mô hình). Tôi nghĩ rằng @GaBorgulya và @djma đã trả lời câu hỏi của tôi một cách hoàn hảo. Biến 4 IS tương quan với biến 3. AH-HA! Có ý nghĩa. cảm ơn mì
MEL

Tôi đã chuyển đổi phản hồi của bạn sang nhận xét trên. Nếu bạn cảm thấy một trong những câu trả lời hiện tại đã giúp bạn hoặc trả lời câu hỏi của bạn, đừng quên chấp nhận nó, như được nhắc nhở bởi @richiemorrisroe. BTW, thật tốt khi thấy bạn đã đăng ký tài khoản của mình.
chl

Câu trả lời:


23

AIC là một ưu điểm của biện pháp phù hợp, ưu tiên sai số dư nhỏ hơn trong mô hình, nhưng bị phạt vì bao gồm các dự đoán xa hơn và giúp tránh tình trạng thừa. Trong bộ mô hình thứ hai của bạn, mô hình 1 (mô hình có AIC thấp nhất) có thể hoạt động tốt nhất khi được sử dụng để dự đoán bên ngoài tập dữ liệu của bạn. Một lời giải thích có thể giải thích tại sao việc thêm Var4 vào mô hình 2 lại dẫn đến AIC thấp hơn, nhưng giá trị p cao hơn là Var4 có phần tương quan với Var1, 2 và 3. Việc giải thích mô hình 2 vì thế dễ dàng hơn.


31

Nhìn vào các giá trị p riêng lẻ có thể gây hiểu nhầm. Nếu bạn có các biến là cộng tuyến (có tương quan cao), bạn sẽ nhận được giá trị p lớn. Điều này không có nghĩa là các biến là vô dụng.

Như một quy tắc nhanh, chọn mô hình của bạn với tiêu chí AIC sẽ tốt hơn là xem xét các giá trị p.

Một lý do người ta có thể không chọn mô hình có AIC thấp nhất là khi tỷ lệ biến / điểm dữ liệu của bạn lớn.

Lưu ý rằng lựa chọn mô hình và độ chính xác dự đoán là một số vấn đề khác biệt. Nếu mục tiêu của bạn là có được dự đoán chính xác, tôi khuyên bạn nên xác thực chéo mô hình của mình bằng cách tách dữ liệu của bạn trong tập huấn luyện và thử nghiệm.

Một bài viết về lựa chọn biến: Stochastic Stepwise Bộ sưu tập cho lựa chọn biến


4
Nếu mục tiêu của bạn là độ chính xác dự đoán, bạn muốn sử dụng AIC (vì nó giảm thiểu sự phân kỳ KL dự kiến ​​giữa mô hình được trang bị và sự thật). Nếu bạn muốn một quy trình lựa chọn mô hình nhất quán (cố định p, tăng n), bạn có thể sử dụng, giả sử, BIC thay thế. Sử dụng giá trị p trong hồi quy từng bước để chọn các giả thuyết không được khuyến nghị.
emakalic

8
0,125|t|>đăng nhập(N)

-3

AIC được thúc đẩy bởi việc ước tính lỗi tổng quát hóa (như CP của Mallow, BIC, ...). Nếu bạn muốn mô hình dự đoán, tốt hơn nên sử dụng một trong những tiêu chí này. Nếu bạn muốn mô hình của mình giải thích một hiện tượng, hãy sử dụng giá trị p.

Ngoài ra, xem ở đây .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.