Các kỹ thuật hồi quy từng bước có làm tăng khả năng dự đoán của một mô hình không?


8

Tôi hiểu một số trong nhiều vấn đề của hồi quy từng bước. Tuy nhiên, như một nỗ lực học tập, giả sử tôi muốn sử dụng hồi quy từng bước cho một mô hình dự đoán và tôi muốn hiểu rõ hơn về tác động của nó đối với hiệu suất.

Ví dụ, với một mô hình tuyến tính, việc thực hiện hồi quy từng bước trên mô hình có xu hướng tăng hoặc giảm công suất dự đoán của mô hình khi được trình bày với dữ liệu mới?

Có bất kỳ tác động lý thuyết nào mà hồi quy từng bước sẽ có khả năng dự đoán?

Kinh nghiệm thực tế cũng sẽ hữu ích; có lẽ các tình huống khi hồi quy từng bước tăng cường dự đoán và khi nó không.


8
Tôi không hiểu điều này: bạn bắt đầu bằng cách yêu cầu chúng tôi bỏ qua các vấn đề - bao gồm các vấn đề với sức mạnh dự đoán - và sau đó bạn hỏi liệu có vấn đề như vậy không! Tại sao không tìm kiếm trang web của chúng tôi cho câu trả lời? Một cái phổ biến là tại stats.stackexchange.com/questions/20836 .
whuber

3
Tôi muốn tập trung vào các vấn đề xung quanh sức mạnh dự đoán (không phải giá trị p, độ lệch hệ số, v.v.). Dựa trên phản hồi của bạn, tôi sẽ làm cho việc đặt câu hỏi của tôi bớt mơ hồ hơn. Tìm kiếm của tôi về trang web đã không mang lại câu trả lời cụ thể cho hiệu suất dự đoán của các mô hình đầy đủ, so với các mô hình giảm dần.
Underminer

1
"Bỏ qua các vấn đề của .." bao gồm bỏ qua các lựa chọn thay thế tốt hơn, ngay cả trong trọng tâm về sức mạnh dự đoán?
Matthew Drury

@MatthewDrury Tôi chủ yếu quan tâm đến tác động của hồi quy từng bước. Điều đó đang được nói, tôi chắc chắn quan tâm đến kết quả từ các phương pháp tự động tương tự.
Underminer

Trong ba đoạn cuối, có ba điều khác nhau? Vấn đề chính xác hoặc mục tiêu bạn muốn giải quyết là gì?
Subhash C. Davar

Câu trả lời:


7

Có một loạt các vấn đề với lựa chọn từng bước. Tôi đã thảo luận từng bước trong câu trả lời của tôi ở đây: Thuật toán để lựa chọn mô hình tự động . Trong câu trả lời đó, tôi không chủ yếu tập trung vào các vấn đề với suy luận, mà trên thực tế là các hệ số bị sai lệch (các vận động viên cố gắng tương tự như các biến). Bởi vì các hệ số bị sai lệch so với giá trị thực của chúng, nên lỗi dự đoán ngoài mẫu sẽ được mở rộng, ceteris paribus.

Hãy xem xét khái niệm về sự đánh đổi sai lệch . Nếu bạn nghĩ về tính chính xác của mô hình của bạn như phương sai của sai số dự báo (ví dụ, MSE: ), sai số dự đoán sẽ là tổng của ba nguồn khác nhau của phương sai:1/nΣ(yTôi-y^Tôi)2

E[(yTôi-y^Tôi)2]= =Vmộtr(f^)+[BTôimộtS(f^)]2+Vmộtr(ε)
Ba thuật ngữ này là phương sai của ước tính hàm của bạn, bình phương sai lệch của ước tính và lỗi không thể sửa chữa trong quá trình tạo dữ liệu, tương ứng. (Cái sau tồn tại bởi vì dữ liệu không phải là xác định, bạn sẽ không bao giờ có được dự đoán gần hơn so với trung bình.) Hai cái trước đến từ thủ tục được sử dụng để ước tính mô hình của bạn. Theo mặc định, chúng tôi có thể nghĩ rằng OLS là thủ tục được sử dụng để ước tính mô hình, nhưng sẽ đúng hơn khi nói rằng lựa chọn từng bước so với ước tính OLS là thủ tục. Ý tưởng của sự đánh đổi sai lệch thiên vị là trong khi một mô hình giải thích nhấn mạnh một cách đúng đắn không thiên vị, một mô hình dự đoán có thể được hưởng lợi từ việc sử dụng một thủ tục thiên vị nếu phương sai được giảm đủ (để giải thích đầy đủ hơn, xem:Vấn đề gì làm phương pháp co ngót giải quyết? ).

Với những ý tưởng đó trong đầu, điểm của câu trả lời của tôi được liên kết ở trên cùng là rất nhiều sự thiên vị được gây ra. Tất cả mọi thứ đều bình đẳng, điều đó sẽ làm cho các dự đoán mẫu trở nên tồi tệ hơn. Thật không may, lựa chọn từng bước không làm giảm phương sai của ước tính. Tốt nhất, phương sai của nó là như nhau, nhưng nó cũng có khả năng làm cho phương sai trở nên tồi tệ hơn nhiều (ví dụ, @Glen_b chỉ báo cáo 15,5% số lần là các biến đúng được chọn trong một nghiên cứu mô phỏng được thảo luận ở đây: Tại sao giá trị p sai lệch sau khi thực hiện lựa chọn từng bước? ).


3
np

2
Cảm ơn, @CliffAB. Tôi đã ủng hộ điều đó từ lâu, nhưng tôi đã quên nó. Câu trả lời thực tế của bạn cho thấy rằng mô hình EDA đáng để thực hiện nghiêm túc sau khi sao chép trên một mẫu mới, và mô hình dự đoán của bạn đáng để thực hiện nghiêm túc sau khi xác thực nó với dữ liệu giữ lại. Tôi đồng ý với cả hai. Tôi sẽ thừa nhận rằng từng bước làm việc tốt hơn trong mô phỏng của bạn, nhưng tôi chắc chắn rằng bạn đồng ý rằng tình huống này được tạo ra một cách hẹp hòi để ủng hộ nó.
gung - Phục hồi Monica

0

Các hiệu ứng chính xác sẽ phụ thuộc vào mô hình và "sự thật", tất nhiên, chúng ta không thể biết. Bạn có thể xem xét tác động của từng bước trong bất kỳ trường hợp cụ thể nào bằng cách xác định giá trị chéo hoặc sử dụng phương pháp thử nghiệm và đào tạo đơn giản.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.