Trong tâm lý học và các lĩnh vực khác, một hình thức hồi quy từng bước thường được sử dụng bao gồm các yếu tố sau:
- Nhìn vào các yếu tố dự đoán còn lại (lúc đầu không có mô hình nào) và xác định yếu tố dự đoán dẫn đến thay đổi bình phương r lớn nhất;
- Nếu giá trị p của thay đổi bình phương r nhỏ hơn alpha (thường là 0,05), thì bao gồm bộ dự đoán đó và quay lại bước 1, nếu không thì dừng lại.
Ví dụ, xem quy trình này trong SPSS .
Thủ tục này thường xuyên được phê bình vì nhiều lý do (xem cuộc thảo luận này trên trang web của Stata với các tài liệu tham khảo ).
Cụ thể, trang web Stata tóm tắt một số bình luận của Frank Harrell. Tôi quan tâm đến khiếu nại:
[hồi quy từng bước] mang lại giá trị bình phương R bị sai lệch cao đến mức cao.
Cụ thể, một số nghiên cứu hiện tại của tôi tập trung vào ước tính r-vuông dân số . Theo dân số r bình phương tôi đề cập đến tỷ lệ phần trăm phương sai được giải thích bởi phương trình tạo dữ liệu dân số trong dân số. Phần lớn các tài liệu hiện có mà tôi đang xem xét đã sử dụng các quy trình hồi quy từng bước và tôi muốn biết liệu các ước tính được cung cấp có bị sai lệch hay không và nếu có thì bao nhiêu. Cụ thể, một nghiên cứu điển hình sẽ có 30 dự đoán, n = 200, alpha của mục nhập 0,05 và ước tính bình phương r khoảng 0,5.
Những gì tôi biết:
- Không có triệu chứng, bất kỳ yếu tố dự đoán nào có hệ số khác không sẽ là một yếu tố dự báo có ý nghĩa thống kê và bình phương r sẽ bằng r-vuông điều chỉnh. Do đó, hồi quy từng bước không có triệu chứng nên ước tính phương trình hồi quy thực và bình phương r bình phương thực sự.
- Với kích thước mẫu nhỏ hơn, thiếu sót có thể của một số yếu tố dự đoán sẽ dẫn đến bình phương r nhỏ hơn so với tất cả các yếu tố dự đoán được đưa vào mô hình. Nhưng cũng là độ lệch thông thường của dữ liệu r-vuông so với dữ liệu mẫu sẽ làm tăng bình phương r. Vì vậy, suy nghĩ ngây thơ của tôi là có khả năng, hai lực lượng đối lập này có thể trong một số điều kiện nhất định dẫn đến một hình vuông không thiên vị. Và nói chung, hướng của sự thiên vị sẽ phụ thuộc vào các tính năng khác nhau của dữ liệu và tiêu chí đưa vào alpha.
- Đặt tiêu chí bao gồm alpha nghiêm ngặt hơn (ví dụ: 0,01, 0,001, v.v.) sẽ làm giảm bình phương ước tính r dự kiến vì xác suất bao gồm bất kỳ yếu tố dự đoán nào trong bất kỳ thế hệ dữ liệu nào sẽ ít hơn.
- Nhìn chung, r-vuông là một ước tính sai lệch hướng lên của r-vuông dân số và mức độ sai lệch này tăng lên với nhiều yếu tố dự đoán hơn và kích thước mẫu nhỏ hơn.
Câu hỏi
Vì vậy, cuối cùng, câu hỏi của tôi:
- Đến mức nào thì bình phương r từ hồi quy từng bước dẫn đến ước tính sai lệch của bình phương r-vuông?
- Mức độ sai lệch này liên quan đến kích thước mẫu, số lượng dự đoán, tiêu chí bao gồm alpha hoặc thuộc tính của dữ liệu?
- Có bất kỳ tài liệu tham khảo về chủ đề này?