Mặc dù giá trị của lựa chọn mô hình từng bước đã được thảo luận trước đây, nhưng đối với tôi, việc lựa chọn mô hình từng bước "hoặc" hồi quy từng bước " là không rõ ràng . Tôi nghĩ rằng tôi hiểu nó, nhưng không chắc chắn nữa.
Tôi hiểu rằng hai thuật ngữ này đồng nghĩa (ít nhất là trong bối cảnh hồi quy) và chúng đề cập đến việc lựa chọn tập hợp các biến dự đoán tốt nhất trong mô hình "tối ưu" hoặc "tốt nhất" , được cung cấp dữ liệu. (Bạn có thể tìm thấy trang Wikipedia ở đây và một tổng quan có thể hữu ích khác ở đây .)
Dựa trên một số luồng trước đó (ví dụ ở đây: Thuật toán cho lựa chọn mô hình tự động ), có vẻ như lựa chọn mô hình từng bước được coi là một tội lỗi chính. Tuy nhiên, nó dường như được sử dụng mọi lúc, bao gồm cả những gì dường như được các nhà thống kê tôn trọng. Hay tôi đang trộn lẫn các thuật ngữ?
Câu hỏi chính của tôi là:
Bằng cách "lựa chọn mô hình từng bước" hoặc "hồi quy từng bước", chúng ta có nghĩa là:
A ) thực hiện kiểm tra giả thuyết tuần tự như kiểm tra tỷ lệ khả năng hoặc xem xét các giá trị p? (Có một bài viết liên quan ở đây: Tại sao giá trị p bị sai lệch sau khi thực hiện lựa chọn từng bước? ) Đây có phải là ý nghĩa của nó và tại sao nó xấu?
Hoặc
B ) chúng ta cũng coi việc lựa chọn dựa trên AIC (hoặc tiêu chí thông tin tương tự) có tệ như nhau không? Từ câu trả lời tại Thuật toán cho lựa chọn mô hình tự động , có vẻ như điều này cũng bị chỉ trích. Mặt khác, Whmitham et al. (2006; pdf ) 1 dường như gợi ý rằng lựa chọn biến dựa trên phương pháp lý thuyết thông tin (CNTT) khác với lựa chọn từng bước (và dường như là một cách tiếp cận hợp lệ) ...?Và đây là nguồn gốc của tất cả sự nhầm lẫn của tôi.
Để theo dõi, nếu lựa chọn dựa trên AIC không thuộc "từng bước" và được coi là không phù hợp, thì đây là các câu hỏi bổ sung:
Nếu cách tiếp cận này là sai, tại sao nó được dạy trong sách giáo khoa, các khóa học đại học, vv? Có phải tất cả đều sai?
Các lựa chọn thay thế tốt để chọn biến nào nên duy trì trong mô hình là gì? Tôi đã bắt gặp các khuyến nghị để sử dụng bộ dữ liệu kiểm tra chéo và kiểm tra đào tạo và LASSO.
Tôi nghĩ rằng tất cả mọi người có thể đồng ý rằng việc ném bừa bãi tất cả các biến có thể vào một mô hình và sau đó thực hiện lựa chọn từng bước là có vấn đề. Tất nhiên, một số đánh giá lành mạnh nên hướng dẫn những gì đi vào ban đầu. Nhưng điều gì sẽ xảy ra nếu chúng ta đã bắt đầu với một số lượng hạn chế các biến dự đoán có thể dựa trên một số kiến thức (nói về sinh học) và tất cả các dự đoán này có thể đang giải thích phản ứng của chúng ta? Cách tiếp cận lựa chọn mô hình này vẫn còn thiếu sót? Tôi cũng thừa nhận rằng việc lựa chọn mô hình "tốt nhất" có thể không phù hợp nếu các giá trị AIC giữa các mô hình khác nhau rất giống nhau (và suy luận đa mô hình có thể được áp dụng trong các trường hợp như vậy). Nhưng vấn đề cơ bản của việc sử dụng lựa chọn từng bước dựa trên AIC có còn là vấn đề không?
Nếu chúng ta đang tìm kiếm xem các biến nào dường như giải thích phản hồi và theo cách nào, tại sao cách tiếp cận này sai, vì chúng ta biết "tất cả các mô hình đều sai, nhưng một số là hữu ích"?
1. Whitsham, MJ, Stephens, PA, Bradbury, RB, & Freckleton, RP (2006). Tại sao chúng ta vẫn sử dụng mô hình hóa từng bước trong sinh thái và hành vi? Tạp chí sinh thái động vật, 75, trang 1182 Từ1189.