Cạm bẫy cần tránh khi chuyển đổi dữ liệu?

15

Tôi đã đạt được mối quan hệ tuyến tính mạnh mẽ giữa biến $X$ và $Y$ sau khi chuyển đổi gấp đôi đáp ứng. Mô hình này là $Y\sim X$ nhưng tôi chuyển nó đến cải thiệntừ 0,19 đến 0,76. $\sqrt{\frac{Y}{X}}\sim \sqrt{X}$ $R^2$

Rõ ràng tôi đã làm một số phẫu thuật đàng hoàng về mối quan hệ này. Bất cứ ai cũng có thể thảo luận về những cạm bẫy của việc này, chẳng hạn như sự nguy hiểm của việc biến đổi quá mức hoặc có thể vi phạm các nguyên tắc thống kê?

regression data-transformation r-squared

— Thông tin5ek
nguồn

1

Từ những gì bạn có, từ đại số một mình, nó trông giống như

. Bạn có thể đăng dữ liệu hoặc hiển thị một biểu đồ? Có những lý do khoa học để mong đợi

khi

?

Y \propto X^{2}

$Y \propto X^2$

Y = 0

$Y = 0$

X = 0

$X = 0$

— Nick Cox

1

@NickCox: Tôi nghĩ rằng

là ký hiệu độc đáo cho

; có lẽ OP đang nói R chứ không phải toán học (dĩ nhiên điều gì đó không được khuyến khích).

Y \sim X

$Y\sim X$

E Y = β_{0} + β_{1} X

$\mathrm{E} Y=\beta_0 + \beta_1 X$

— Scortchi - Phục hồi Monica

@Scortchi Tôi sợ bạn đúng. Xem dữ liệu sẽ giúp một trong hai cách.

— Nick Cox

Trong trường hợp này, 0 X sẽ ám chỉ 0 Y vì Y đang lái xe tử vong và X là tổng số KM được điều khiển bởi tất cả các trình điều khiển.

— Info5ek

2

@AaronHall Phương trình là không nhất thiết phải vô ích, vì (nhân trở lại bởi

đó

\sqrt{X}

$\sqrt X$

, mà cũng có thể là một mô hình có khả năng đáng tin cậy trong một số trường hợp). Tuy nhiên,

ở dạng phương trình được đưa ra trong câu hỏi không được sử dụng nhiều, bạn không thể so sánh nó với một cái gì đó được trang bị ở quy mô khác. (Ngẫu nhiên, nếu đó là downvote của bạn về câu trả lời của tôi, giải thích về những gì bạn nghĩ là sai trong các câu trả lời sẽ có ích.)

\sqrt{Y} = β_{0} \sqrt{X} + β_{1} X + \sqrt{X} ϵ

$\sqrt Y = \beta_0 \sqrt X + \beta_1 X + \sqrt X\epsilon$

R^{2}

$R^2$

— Glen_b -Reinstate Monica

20

Bạn thực sự không thể so sánh trước và sau, bởi vì độ biến thiên cơ bản trong là khác nhau. Vì vậy, bạn thực sự không thể thoải mái bất cứ điều gì từ sự thay đổi trong . Điều đó cho bạn biết không có giá trị gì khi so sánh hai mô hình. $R^2$ $Y$ $R^2$

Hai mô hình khác nhau theo nhiều cách, vì vậy chúng có nghĩa là những thứ khác nhau - chúng giả định những điều rất khác nhau về hình dạng của mối quan hệ và sự biến đổi của thuật ngữ lỗi (khi được xem xét về mối quan hệ giữa và ). Vì vậy, nếu bạn quan tâm đến việc mô hình hóa (nếu bản thân có ý nghĩa), hãy tạo ra một mô hình tốt cho điều đó. Nếu bạn đang quan tâm đến việc xây dựng mô hình $Y$ $X$ $Y$ $Y$ (/ $\sqrt Y$ có ý nghĩa), tạo ra một mô hình tốt cho điều đó. Nếu $\sqrt Y$ mang ý nghĩa, sau đó tạo ra một mô hình tốt cho điều đó. Nhưng so sánh bất kỳ mô hình cạnh tranh trên quy mô so sánh. trên các phản ứng khác nhau đơn giản là không thể so sánh được. $\sqrt{Y/X}$ $R^2$

Nếu bạn chỉ đang thử các mối quan hệ khác nhau với hy vọng tìm thấy một phép biến đổi với - hoặc bất kỳ biện pháp nào khác về 'mức độ phù hợp' - thì các đặc tính của bất kỳ suy luận nào bạn muốn thực hiện sẽ bị ảnh hưởng bởi sự tồn tại của quá trình tìm kiếm đó. $R^2$

Ước tính sẽ có xu hướng bị lệch khỏi 0, sai số chuẩn sẽ quá nhỏ, giá trị p sẽ quá nhỏ, khoảng tin cậy quá hẹp. Các mô hình của bạn trung bình dường như là 'quá tốt' (theo nghĩa là hành vi ngoài mẫu của chúng sẽ gây thất vọng so với hành vi trong mẫu).

Để tránh loại quá mức này, nếu cần, bạn có thể thực hiện nhận dạng và ước lượng mô hình trên các tập hợp con khác nhau của dữ liệu (và đánh giá mô hình trên một phần ba). Nếu bạn lặp lại loại thủ tục này trên nhiều "phần tách" dữ liệu được lấy ngẫu nhiên, bạn sẽ hiểu rõ hơn về khả năng tái tạo kết quả của bạn.

Có nhiều bài viết ở đây với những điểm liên quan về những vấn đề này: có thể đáng để thử một số tìm kiếm.

(Nếu bạn có tốt a priori lý do cho việc lựa chọn một sự thay đổi đặc biệt, đó là một vấn đề khác nhau. Tuy nhiên, tìm kiếm không gian của biến đổi để tìm một cái gì đó phù hợp mang tất cả các cách thức của 'dữ liệu snooping' vấn đề loại với nó.)

— Glen_b -Reinstate Monica
nguồn

Cảm ơn đã trả lời Glen. Lý do tôi thực hiện việc chuyển đổi này là vì đó là lần duy nhất không mang lại cho tôi những thành phần sai lệch. Tôi đã thử tiêu chuẩn y / x, log (y), sqrt (y) và các kết hợp khác nhau của chúng. Tất cả dẫn đến một âm mưu còn lại dốc. Chỉ sau khi thực hiện chuyển đổi hai giai đoạn, tôi mới nhận được phần dư xuất hiện ngẫu nhiên. Tuy nhiên, bạn nói rằng mô hình này có khả năng không phù hợp với dữ liệu ngoài mẫu vì tôi có thể vừa điều chỉnh dữ liệu, đúng không?

— Info5ek

Vâng, vâng, nhưng đó là một vấn đề với bất kỳ hình thức đặc tả mô hình nào khi xem dữ liệu, vì vậy nó xảy ra rất nhiều. Trong nhiều tình huống, điều khó tránh, đó là nơi có thể tách mẫu. (Xác thực chéo có thể là một công cụ hữu ích cho các tình huống như vậy.)

— Glen_b -Reinstate Monica

Nó sẽ hữu ích để biết lý do cho downvote. Có gì sai với câu trả lời? Có lẽ nó có thể được cải thiện. (Nếu nó không thể được cải thiện, tại sao downvote?)

— Glen_b -Reinstate Monica

1

@Glen_b: Mặc dù vậy, rất khó để xác thực chéo một quy trình không xác định - trong mỗi lần, bạn cần lặp lại quá trình xem xét chẩn đoán, nghĩ ra một chuyển đổi khác khi bạn không thích chúng, thử nó, v.v.

— Scortchi - Phục hồi Monica

1

@Scortchi Có, nếu các phép biến đổi không được chọn từ nhóm ứng cử viên đã biết theo một số quy tắc đơn giản, điều đó có thể là không thể.

— Glen_b -Reinstate Monica

16

Có một vấn đề lớn hơn những vấn đề được xác định bởi @Glen_b.

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)

Và tôi nhận được là 0,49 và giá trị P là . $R^2$ $5.5 \times 10^{-16}$

Bạn có ở cả hai phía của phương trình. $X$

— Peter Flom - Tái lập Monica
nguồn

2

Không chắc chắn đó là một vấn đề khác nhau khi không có lý do chính đáng để thể hiện mô hình theo cách này hơn là cách khác. Nếu bạn để

&

W = \sqrt{\frac{Y}{X}}

$W=\sqrt{\frac{Y}{X}}$

thì bạn cũng có thể nói rằng mô hình đầu tiên (

) có

ở cả hai phía của phương trình.

Z = \sqrt{X}

$Z=\sqrt{X}$

Y \sim X

$Y\sim X$

Z^{2}

$Z^2$

— Scortchi - Phục hồi Monica

4

Nếu

&

là nhiễu ngẫu nhiên, hồi quy

trên

cho mối quan hệ mạnh mẽ. Sự bất đối xứng mà nhãn một hồi quy giả thay vì khác mà không xem xét các biến thậm chí có nghĩa là gì? Kiểu này đã được tranh luận giữa Pearson & Yule ( Aldrich (1995) ) và tôi với Yule: những gì giả mạo không phải là mối tương quan mà là tuyên bố về mối quan hệ nhân quả dựa trên mối tương quan đó.

W

$W$

Z

$Z$

Y

$Y$

X

$X$

— Scortchi - Phục hồi Monica

1

Vâng, nhưng ở đây, hồi quy bắt đầu bằng X và Y. Không quan trọng là biến nào, có thể nói là biến nào?

— Peter Flom - Tái lập Monica

2

Không thể hiểu tại sao nó nên, ngoại trừ trong chừng mực, như @Glen_b chỉ ra trong câu đầu tiên của anh ấy, nếu mục tiêu của bạn là dự đoán

, thì hệ số xác định mô hình cho

sẽ không có gì đáng ngại. Và tất nhiên nếu bạn có những ý tưởng mạnh mẽ về thuật ngữ lỗi trông như thế nào, thì một mô hình sẽ dễ điều khiển hơn mô hình kia.

Y

$Y$

W

$W$

— Scortchi - Tái lập Monica

4

Bạn nêu lên một điểm tốt về W & Z, @Scortchi, nhưng đối với tôi, vấn đề mà bạn quan tâm là các biến bạn quan tâm là gì, và những biến bạn đã tạo chỉ để có được mô hình tốt hơn. Đó là các biến thực được xác định bởi ý nghĩa của X, v.v., trong bối cảnh của câu hỏi thực chất. Tôi suy luận từ văn bản rằng OP muốn hiểu mối quan hệ b / t X & Y, và tạo W & Z để cải thiện sự phù hợp của mô hình. Tức là, trong trường hợp cụ thể này, đối với tôi, Peter nói đúng, bạn không thể cố gắng cải thiện mô hình của mình bằng cách đặt X ở cả hai bên.

— gung - Tái lập Monica

4

Có hai yếu tố đối với ví dụ của @ Peter, có thể hữu ích khi gỡ bỏ:

(1) Mô hình đặc tả sai. Các mô hình

y_{i} = β_{0} + β_{1} x_{i} + ε_{i} (1)

$y_i = \beta_0 + \beta_1 x_i + \varepsilon_i \qquad\text{(1)}$

&

w_{i} = γ_{0} + γ_{1} z_{i} + ζ_{i} (2)

$w_i=\gamma_0 + \gamma_1 z_i + \zeta_i \qquad\text{(2)}$

, where $w_i=\sqrt{\frac{y_i}{x_i}}$ & $z_i=\sqrt{x_i}$ , can't both be true. If you re-express each in terms of the other's response they become non-linear in the parameters, with heteroskedastic errors.

w_{i} = \sqrt{\frac{β_{0}}{z_{i}^{2}} + β_{1} + \frac{ε_{i}}{z_{i}^{2}}} (1)

$w_i = \sqrt{\frac{\beta_0}{z_i^2} + \beta_1 + \frac{\varepsilon_i}{z_i^2}} \qquad\text{(1)}$

y_{i} = (γ_{0} {\sqrt{x}}_{i} + γ_{1} {\sqrt{x}}_{i} + ζ_{i} {\sqrt{x}}_{i})^{2} (2)

$y_i = (\gamma_0 \sqrt x_i + \gamma_1 \sqrt x_i + \zeta_i \sqrt x_i)^2 \qquad\text{(2)}$

If $Y$ is assumed to be a Gaussian random variable independent of $X$ , then that's a special case of Model 1 in which $\beta_1=0$ , & you shouldn't be using Model 2. But equally if $W$ is assumed to be a Gaussian random variable independent of $Z$ , you shouldn't be using Model 1. Any preference for one model rather than the other has to come from substantive theory or their fit to data.

(2) Transformation of the response. If you knew $Y$ & $X$ to be independent Gaussian random variables, why should the relation between $W$ & $Z$ still surprise you, or would you call it spurious? The conditional expectation of $W$ can be approximated with the delta method:

E \sqrt{\frac{Y}{x}} = \frac{E \sqrt{Y}}{z} \approx \frac{\sqrt{β_{0}} + \frac{Var Y}{8 β_{0}^{3 / 2}}}{z}

$\operatorname{E} \sqrt\frac{Y}{x} = \frac{\operatorname{E}\sqrt{Y}}{z} \\ \approx \frac{\sqrt{\beta_0} + \frac{\operatorname{Var}{Y}}{8\beta_0^{3/2}}}{z}$

It is indeed a function of $z$ .

Following through the example ...

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))

enter image description here

Neither Model 1 nor Model 2 is much use for predicting $y$ from $x$ , but both are all right for predicting $w$ from $z$ : mis-specification hasn't done much harm here (which isn't to say it never will—when it does, it ought to be apparent from the model diagnostics). Model-2-ers will run into trouble sooner as they extrapolate further away from the data—par for the course, if your model's wrong. Some will gain pleasure from contemplation of the little stars they get to put next to their p-values, while some Model-1-ers will bitterly grudge them this—the sum total of human happiness stays about the same. And of course, Model-2-ers, looking at the plot of $w$ against $z$ , might be tempted to think that intervening to increase $z$ will reduce $w$ —we can only hope & pray they don't succumb to a temptation we've all been incessantly warned against; that of confusing correlation with causation.

Aldrich (2005), "Correlations Genuine and Spurious in Pearson and Yule", Statistical Science, 10, 4 provides an interesting historical perspective on these issues.

— Scortchi - Reinstate Monica
nguồn

3

The earlier answer of @Glen_b is all important. Playing with transformations distorts every part of statistical inference and results in $R^2$ that is biased high. In short, not having a parameter in the model for everything you don't know will give a false sense of precision. That's why regression splines are now so popular.

— Frank Harrell
nguồn