Tương quan có ý nghĩa trong mỗi nhóm nhưng không đáng kể trên tất cả?

9

Giả sử chúng ta kiểm tra mối tương quan Pearson giữa biến và trong nhóm và . Có thể tương quan có ý nghĩa trong mỗi và , nhưng không đáng kể khi dữ liệu từ cả hai nhóm được kết hợp? Trong trường hợp này, bạn có thể vui lòng cung cấp một lời giải thích cho điều đó. $x$ $y$ $A$ $B$ $(x,y)$ $A$ $B$

correlation

— qed
nguồn

21

Vâng, nó là có thể và nó có thể xảy ra tất cả các cách. Một ví dụ rõ ràng là khi tư cách thành viên của A và B được chọn theo cách nào đó phản ánh các giá trị của x và y. Các ví dụ khác là có thể, ví dụ như bình luận của @ Macro cho thấy một khả năng thay thế.

Hãy xem xét ví dụ dưới đây, được viết bằng R. x và y là các biến thông thường tiêu chuẩn, nhưng nếu tôi phân bổ chúng cho các nhóm dựa trên các giá trị tương đối của x và y, tôi sẽ nhận được tên biến. Trong nhóm A và nhóm B có mối tương quan có ý nghĩa thống kê mạnh mẽ giữa x và y, nhưng nếu bạn bỏ qua cấu trúc nhóm thì không có mối tương quan.

nhập mô tả hình ảnh ở đây

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)

— Peter Ellis
nguồn

+1. Đây là một ví dụ rất thông minh đã không xảy ra với tôi.

— Macro

13

Một khả năng là các hiệu ứng có thể đi theo các hướng khác nhau trong mỗi nhóm và bị hủy bỏ khi bạn tổng hợp chúng . Điều này cũng liên quan đến cách, khi bạn bỏ qua một thuật ngữ tương tác quan trọng trong mô hình hồi quy, các tác động chính có thể gây hiểu nhầm.

Ví dụ: giả sử trong nhóm , mối quan hệ thực sự giữa phản hồi và dự đoán là: $\rm A$ $y_i$ $x_i$

E (y_{Tôi} | x_{Tôi}, G r o bạn p Một) = = 1 + x_{Tôi}

$E(y_i|x_i, {\rm Group \ A}) = 1 + x_i$

và trong nhóm , $\rm B$

E (y_{Tôi} | x_{Tôi}, G r o bạn p B) = = 1 - x_{Tôi}

$E(y_i|x_i, {\rm Group \ B}) = 1 - x_i$

Thành viên nhóm Giả sử được phân phối sao cho Sau đó, nếu bạn ra ngoài lề so với thành viên nhóm và tính toán bởi Luật tổng kỳ vọng bạn nhận được

P (G r o bạn p Một) = = 1 - P (G r o bạn p B) = = p

$P({\rm Group \ A}) = 1-P( {\rm Group \ B}) = p$

E (y_{i} | x_{i})

$E(y_i|x_i)$

\begin{aligned} E (y_{Tôi} | x_{Tôi}) = = E (E (y_{Tôi} | x_{Tôi}, G r o bạn p)) & = = p (1 + x_{Tôi}) + (1 - p) (1 - x_{Tôi}) \\ = = p + p x_{Tôi} + 1 - x_{Tôi} - p + p x_{Tôi} \\ = = 1 - x_{Tôi} (2 p - 1) \end{aligned}

$\begin{align*} E(y_i | x_i) = E( E(y_i|x_i,{\rm Group}) ) &= p(1+ x_i) + (1-p)(1-x_i) \\ &= p + px_i + 1 - x_i - p + px_i \\ &= 1 - x_i(2p-1) \end{align*}$

Do đó, nếu , và hoàn toàn không phụ thuộc vào . Vì vậy, có một mối quan hệ trong cả hai nhóm, nhưng khi bạn tổng hợp chúng, không có mối quan hệ nào. Nói cách khác, đối với một cá nhân được chọn ngẫu nhiên trong dân số, thành viên nhóm mà chúng tôi không biết, trung bình, sẽ không có mối quan hệ nào giữa và . Nhưng, trong mỗi nhóm có. $p = 1/2$ $E(y_i | x_i) = 1$ $x_i$ $x_i$ $y_i$

Bất kỳ ví dụ nào mà giá trị của cân bằng hoàn hảo các kích thước hiệu ứng trong mỗi nhóm cũng sẽ dẫn đến kết quả này - đây chỉ là ví dụ đồ chơi này để làm cho các phép tính dễ dàng :) $p$

Lưu ý: Với các lỗi thông thường, tầm quan trọng của hệ số hồi quy tuyến tính tương đương với tầm quan trọng của mối tương quan của Pearson, vì vậy ví dụ này nêu bật một lời giải thích cho những gì bạn đang thấy.

— Vĩ mô
nguồn