Tôi nghĩ rằng cách tiếp cận này là sai, nhưng có lẽ nó sẽ hữu ích hơn nếu tôi giải thích tại sao. Muốn biết mô hình tốt nhất được cung cấp một số thông tin về một số lượng lớn các biến là khá dễ hiểu. Hơn nữa, đó là một tình huống mà mọi người dường như thấy mình thường xuyên. Ngoài ra, nhiều sách giáo khoa (và các khóa học) về hồi quy bao gồm các phương pháp lựa chọn từng bước, trong đó ngụ ý rằng chúng phải hợp pháp. Thật không may, tuy nhiên, chúng không phải, và việc kết hợp tình huống và mục tiêu này khá khó khăn để điều hướng thành công. Sau đây là danh sách các vấn đề với quy trình lựa chọn mô hình từng bước tự động (được quy cho Frank Harrell và được sao chép từ đây ):
- Nó mang lại giá trị bình phương R bị sai lệch cao là cao.
- Các thử nghiệm F và chi bình phương được trích dẫn bên cạnh mỗi biến số trên bản in không có phân phối được yêu cầu.
- Phương pháp mang lại khoảng tin cậy cho các hiệu ứng và giá trị dự đoán bị thu hẹp một cách giả tạo; xem Altman và Andersen (1989).
- Nó mang lại giá trị p không có ý nghĩa chính xác và việc điều chỉnh thích hợp cho chúng là một vấn đề khó khăn.
- Nó đưa ra các hệ số hồi quy sai lệch cần co ngót (hệ số cho các biến còn lại là quá lớn; xem Tibshirani [1996]).
- Nó có vấn đề nghiêm trọng trong sự hiện diện của cộng sự.
- Nó dựa trên các phương pháp (ví dụ, kiểm tra F cho các mô hình lồng nhau) được dự định sẽ được sử dụng để kiểm tra các giả thuyết được chỉ định trước.
- Tăng kích thước mẫu không giúp ích nhiều; xem Derksen và Keselman (1992).
- Nó cho phép chúng ta không nghĩ về vấn đề.
- Nó sử dụng rất nhiều giấy.
Câu hỏi là, những gì quá tệ về các thủ tục này / tại sao những vấn đề này xảy ra? Hầu hết những người đã tham gia một khóa hồi quy cơ bản đều quen thuộc với khái niệm hồi quy trung bình , vì vậy đây là những gì tôi sử dụng để giải thích những vấn đề này. (Mặc dù lúc đầu điều này có vẻ lạc đề, hãy đồng ý với tôi, tôi hứa là nó có liên quan.)
Hãy tưởng tượng một huấn luyện viên theo dõi trường trung học vào ngày đầu tiên thử sức. Ba mươi đứa trẻ xuất hiện. Những đứa trẻ này có một số mức độ tiềm năng tiềm ẩn mà cả huấn luyện viên, cũng không phải ai khác có thể truy cập trực tiếp. Kết quả là, huấn luyện viên làm điều duy nhất anh ta có thể làm, đó là tất cả họ đều chạy một cú 100m. Thời đại có lẽ là thước đo khả năng nội tại của họ và được thực hiện như vậy. Tuy nhiên, chúng có xác suất; một số tỷ lệ làm thế nào một người làm tốt dựa trên khả năng thực tế của họ và một số tỷ lệ là ngẫu nhiên. Hãy tưởng tượng rằng tình huống thực sự là như sau:
set.seed(59)
intrinsic_ability = runif(30, min=9, max=10)
time = 31 - 2*intrinsic_ability + rnorm(30, mean=0, sd=.5)
Kết quả của cuộc đua đầu tiên được hiển thị trong hình dưới đây cùng với ý kiến của huấn luyện viên cho các em.
Lưu ý rằng phân vùng trẻ em theo thời gian chủng tộc của chúng để lại sự chồng chéo về khả năng nội tại của chúng - thực tế này rất quan trọng. Sau khi khen ngợi một số người, và la mắng một số người khác (như huấn luyện viên có xu hướng làm), anh ta đã cho họ chạy lại. Dưới đây là kết quả của cuộc đua thứ hai với phản ứng của huấn luyện viên (mô phỏng từ cùng một mô hình ở trên):
Lưu ý rằng khả năng nội tại của chúng là giống hệt nhau, nhưng thời gian nảy xung quanh so với chủng tộc đầu tiên. Từ quan điểm của huấn luyện viên, những người mà anh ta hét lên có xu hướng cải thiện, và những người anh ta ca ngợi có xu hướng làm tồi tệ hơn (tôi đã điều chỉnh ví dụ cụ thể này từ trích dẫn của Kahneman được liệt kê trên trang wiki), mặc dù thực sự hồi quy theo nghĩa là một phép toán đơn giản hệ quả của việc huấn luyện viên chọn các vận động viên cho đội dựa trên một phép đo là một phần ngẫu nhiên.
Bây giờ, điều này có liên quan gì với các kỹ thuật chọn mô hình tự động (ví dụ: từng bước)? Phát triển và xác nhận một mô hình dựa trên cùng một bộ dữ liệu đôi khi được gọi là nạo vét dữ liệu. Mặc dù có một số mối quan hệ cơ bản giữa các biến và các mối quan hệ mạnh hơn được dự kiến sẽ mang lại điểm số cao hơn (ví dụ: thống kê t cao hơn), đây là các biến ngẫu nhiên và các giá trị nhận ra có lỗi. Do đó, khi bạn chọn các biến dựa trên việc có các giá trị nhận ra cao hơn (hoặc thấp hơn), chúng có thể là do giá trị thực, lỗi hoặc cả hai. Nếu bạn tiến hành theo cách này, bạn sẽ ngạc nhiên như huấn luyện viên sau cuộc đua thứ hai. Điều này đúng cho dù bạn chọn các biến dựa trên việc có số liệu thống kê t cao hoặc tỷ lệ xen kẽ thấp. Đúng, sử dụng AIC tốt hơn sử dụng giá trị p, vì nó phạt mô hình vì độ phức tạp, nhưng AIC tự nó là một biến ngẫu nhiên (nếu bạn thực hiện một nghiên cứu nhiều lần và phù hợp với cùng một mô hình, AIC sẽ nảy ra giống như mọi thứ khác). Không may,
Tôi hy vọng điều này là hữu ích.