Một "biến số quan trọng" không cải thiện dự đoán ngoài mẫu - làm thế nào để diễn giải?


10

Tôi có một câu hỏi mà tôi nghĩ sẽ khá cơ bản với nhiều người dùng.

Tôi sử dụng các mô hình hồi quy tuyến tính để (i) điều tra mối quan hệ của một số biến giải thích và biến trả lời của tôi và (ii) dự đoán biến trả lời của tôi bằng các biến giải thích.

Một biến giải thích cụ thể X xuất hiện để tác động mạnh đến biến phản ứng của tôi. Để kiểm tra giá trị gia tăng của biến giải thích X này nhằm mục đích dự đoán ngoài mẫu của biến trả lời của tôi, tôi đã sử dụng hai mô hình: mô hình (a) sử dụng tất cả các biến giải thích và mô hình (b) sử dụng tất cả các biến ngoại trừ biến X. Đối với cả hai mô hình, tôi chỉ báo cáo hiệu suất ngoài mẫu. Có vẻ như cả hai mô hình thực hiện gần như là tốt. Nói cách khác, việc thêm biến giải thích X không cải thiện dự đoán ngoài mẫu. Lưu ý rằng tôi cũng đã sử dụng mô hình (a), tức là mô hình với tất cả các biến giải thích, để thấy rằng biến giải thích X có tác động đáng kể đến biến trả lời của tôi.

Câu hỏi của tôi bây giờ là: làm thế nào để phát hiện ra phát hiện này? Kết luận đơn giản là, mặc dù biến X dường như ảnh hưởng đáng kể đến biến phản ứng của tôi bằng các mô hình suy luận, nhưng nó không cải thiện các dự đoán ngoài mẫu. Tuy nhiên, tôi gặp khó khăn khi giải thích thêm về phát hiện này. Làm thế nào điều này có thể có thể và một số giải thích cho phát hiện này là gì?

Cảm ơn trước!

Thông tin thêm: với 'ảnh hưởng đáng kể' Tôi có nghĩa là 0 không được bao gồm trong khoảng mật độ sau 95% cao nhất của ước tính tham số (tôi sử dụng phương pháp Bayesian). Theo thuật ngữ thường xuyên, điều này gần tương ứng với việc có giá trị p thấp hơn 0,05. Tôi chỉ sử dụng các linh mục khuếch tán (không thông tin) cho tất cả các tham số mô hình của tôi. Dữ liệu của tôi có cấu trúc theo chiều dọc và tổng cộng có khoảng 7000 quan sát. Đối với các dự đoán ngoài mẫu, tôi đã sử dụng 90% dữ liệu để phù hợp với các mô hình của mình và 10% dữ liệu để đánh giá các mô hình bằng nhiều bản sao. Đó là, tôi đã thực hiện phân tách kiểm tra tàu nhiều lần và cuối cùng báo cáo các số liệu hiệu suất trung bình.


2
Vì bạn đang sử dụng phương pháp Bayes, kết quả của bạn phụ thuộc nhiều vào dữ liệu trước đó của bạn. Vì sự phụ thuộc vào mức giảm trước khi tăng lượng dữ liệu và tăng đến mức độ dữ liệu và không đồng ý trước đó, nên sẽ hữu ích cho bạn khi cung cấp thông tin về phân phối trước, lượng dữ liệu và mức độ tuân thủ dữ liệu một cách chặt chẽ để phân phối trước.
whuber

1
@whuber Tôi quên đề cập rằng tôi chỉ sử dụng các linh mục khuếch tán (không thông tin). Do đó, tôi không cảm thấy như đặc điểm kỹ thuật trước đây của tôi có liên quan đến những phát hiện của tôi. Tôi khá chắc chắn rằng các mô hình hồi quy tuyến tính thường xuyên phù hợp sẽ dẫn đến kết quả chính xác tương tự.
dubvice

Cảm ơn - điều đó giúp loại trừ một số giải thích có thể.
whuber

1
Bạn đang chỉnh sửa các mô hình cho dữ liệu bị giữ hoặc sử dụng các mô hình bạn phù hợp với dữ liệu gốc của bạn? Trong cả hai trường hợp, một vấn đề có thể xảy ra là bạn đang mắc lỗi Loại II trên dữ liệu bị giữ; có lẽ biến là có liên quan nhưng ban đầu bạn bị thiếu năng lực (trong trường hợp đó bạn có thể đánh giá quá cao hiệu ứng có thể làm cho dự đoán tồi tệ hơn). Hoặc biến không liên quan và bạn đã mắc lỗi Loại I. Có rất nhiều lý do loại điều này có thể xảy ra.
anh chàng

1
Tôi đã sử dụng một số số liệu: RSME, MAE và AUC (Tôi cũng đang cố gắng dự đoán xem biến phụ thuộc của tôi, có liên tục hay không, nằm dưới một ngưỡng nhất định).
dubvice

Câu trả lời:


3

x1x2x1x2x1x2x1x2R2

Chức năng là:

sim_ES <- function (effect_size = 1, sd = 2, n = 200) {
    # simulate some data
    DF <- data.frame(x1 = runif(n, -3, 3), x2 = runif(n, -3, 3))
    DF$y <- 2 + 5 * DF$x1 + (effect_size * sd) * DF$x2 + rnorm(n, sd = sd)

    # fit the models with and without x2
    fm1 <- lm(y ~ x1 + x2, data = DF)
    fm2 <- lm(y ~ x1, data = DF)

    # results
    list("95% CIs" = confint(fm1),
         "R2_X1_X2" = summary(fm1)$r.squared,
         "R2_only_X1" = summary(fm2)$r.squared)
}

Là một đề thi, cho các giá trị mặc định chúng tôi nhận được,

$`95% CIs`
               2.5 %   97.5 %
(Intercept) 1.769235 2.349051
x1          4.857439 5.196503
x2          1.759917 2.094877

$R2_X1_X2
[1] 0.9512757

$R2_only_X1
[1] 0.8238826

x2R2

Nhưng nếu chúng ta đặt kích thước hiệu ứng thành 0,3, chúng ta sẽ nhận được:

> sim_ES(effect_size = 0.3)
$`95% CIs`
                2.5 %    97.5 %
(Intercept) 1.9888073 2.5563233
x1          4.9383698 5.2547929
x2          0.3512024 0.6717464

$R2_X1_X2
[1] 0.9542341

$R2_only_X1
[1] 0.9450327

R2


Sự phân đôi mơ hồ giữa ý nghĩa thống kêhiệu suất dự đoán là nguyên nhân dẫn đến cuộc sống phân tích của tôi theo nhiều cách hơn một. (+1 - và chào mừng chung đến CV GS!)
usεr11852

-1

Đây là một điều khá bình thường xảy ra trong hồi quy bội. Lý do phổ biến nhất là những người dự đoán của bạn có liên quan với nhau. Nói cách khác, bạn có thể suy ra X từ các giá trị của các yếu tố dự đoán khác. Do đó, mặc dù nó hữu ích cho các dự đoán nếu đó là dự đoán duy nhất bạn có, một khi bạn có tất cả các dự đoán khác, nó không cung cấp thêm thông tin. Bạn có thể kiểm tra xem đây có phải là trường hợp không bằng cách hồi quy X trên các dự đoán khác. Tôi cũng sẽ đề cập đến chương về hồi quy tuyến tính trong sách giáo khoa trực tuyến miễn phí, Các yếu tố của học thống kê.


1
Bạn dường như đang mô tả một biến giải thích không có ý nghĩa hơn là giải quyết các trường hợp cụ thể được mô tả trong câu hỏi.
whuber

Tôi đang mô tả một biến giải thích có liên quan đáng kể đến phản hồi của chính nó (nghĩa là trong một hồi quy đơn giản), đó là những gì tôi cho rằng câu hỏi có nghĩa là "X dường như tác động mạnh mẽ đến biến trả lời của tôi".
Denziloe

Nhưng trong trường hợp đó tôi sẽ không thấy rằng biến giải thích X của mình ảnh hưởng đáng kể đến biến phản ứng của tôi phải không? Có thể ban đầu tôi không nói rõ trong câu hỏi của mình, nhưng tôi đã sử dụng một mô hình với tất cả các biến giải thích để thấy rằng biến giải thích X có ảnh hưởng đáng kể đến biến trả lời của tôi.
dubvice

3
X

1
Có whuber, bạn hiểu nó một cách chính xác. Đó là thứ tôi nghĩ. Tôi hy vọng làm rõ điều này đủ tốt trong câu hỏi của tôi.
dubvice
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.