Tôi có một câu hỏi mà tôi nghĩ sẽ khá cơ bản với nhiều người dùng.
Tôi sử dụng các mô hình hồi quy tuyến tính để (i) điều tra mối quan hệ của một số biến giải thích và biến trả lời của tôi và (ii) dự đoán biến trả lời của tôi bằng các biến giải thích.
Một biến giải thích cụ thể X xuất hiện để tác động mạnh đến biến phản ứng của tôi. Để kiểm tra giá trị gia tăng của biến giải thích X này nhằm mục đích dự đoán ngoài mẫu của biến trả lời của tôi, tôi đã sử dụng hai mô hình: mô hình (a) sử dụng tất cả các biến giải thích và mô hình (b) sử dụng tất cả các biến ngoại trừ biến X. Đối với cả hai mô hình, tôi chỉ báo cáo hiệu suất ngoài mẫu. Có vẻ như cả hai mô hình thực hiện gần như là tốt. Nói cách khác, việc thêm biến giải thích X không cải thiện dự đoán ngoài mẫu. Lưu ý rằng tôi cũng đã sử dụng mô hình (a), tức là mô hình với tất cả các biến giải thích, để thấy rằng biến giải thích X có tác động đáng kể đến biến trả lời của tôi.
Câu hỏi của tôi bây giờ là: làm thế nào để phát hiện ra phát hiện này? Kết luận đơn giản là, mặc dù biến X dường như ảnh hưởng đáng kể đến biến phản ứng của tôi bằng các mô hình suy luận, nhưng nó không cải thiện các dự đoán ngoài mẫu. Tuy nhiên, tôi gặp khó khăn khi giải thích thêm về phát hiện này. Làm thế nào điều này có thể có thể và một số giải thích cho phát hiện này là gì?
Cảm ơn trước!
Thông tin thêm: với 'ảnh hưởng đáng kể' Tôi có nghĩa là 0 không được bao gồm trong khoảng mật độ sau 95% cao nhất của ước tính tham số (tôi sử dụng phương pháp Bayesian). Theo thuật ngữ thường xuyên, điều này gần tương ứng với việc có giá trị p thấp hơn 0,05. Tôi chỉ sử dụng các linh mục khuếch tán (không thông tin) cho tất cả các tham số mô hình của tôi. Dữ liệu của tôi có cấu trúc theo chiều dọc và tổng cộng có khoảng 7000 quan sát. Đối với các dự đoán ngoài mẫu, tôi đã sử dụng 90% dữ liệu để phù hợp với các mô hình của mình và 10% dữ liệu để đánh giá các mô hình bằng nhiều bản sao. Đó là, tôi đã thực hiện phân tách kiểm tra tàu nhiều lần và cuối cùng báo cáo các số liệu hiệu suất trung bình.