Tương tự tương quan Pearson cho 3 biến


17

Tôi quan tâm đến việc liệu "mối tương quan" của ba biến có phải là một cái gì đó hay không, và nếu có thì đây sẽ là gì?

Hệ số tương quan thời điểm sản phẩm Pearson

E{(XμX)(YμY)}Var(X)Var(Y)

Bây giờ câu hỏi cho 3 biến: Là

E{(X-μX)(Y-μY)(Z-μZ)}Vmộtr(X)Vmộtr(Y)Vmộtr(Z)

bất cứ điều gì?

Trong R có vẻ như một cái gì đó có thể giải thích:

> a <- rnorm(100); b <- rnorm(100); c <- rnorm(100)
> mean((a-mean(a)) * (b-mean(b)) * (c-mean(c))) / (sd(a) * sd(b) * sd(c))
[1] -0.3476942

Chúng ta thường xem xét mối tương quan giữa 2 biến được đưa ra giá trị của biến thứ ba cố định. Ai đó có thể làm rõ?


2
1) Trong công thức Pearson bivariate của bạn, nếu "E" (có nghĩa là trong mã của bạn) ngụ ý chia cho n thì st. độ lệch cũng phải dựa trên n (không phải n-1). 2) Đặt cả ba biến là cùng một biến. Trong trường hợp này, chúng tôi hy vọng tương quan là 1 (như trong trường hợp bivariate), nhưng than ôi ...
ttnphns

Đối với một phân phối bình thường tầm thường, nó bằng không, bất kể tương quan là gì.
Ray Koopman

1
Tôi thực sự nghĩ rằng tiêu đề sẽ được hưởng lợi từ việc thay đổi thành "Tương quan tương tự Pearson cho 3 biến" hoặc tương tự - nó sẽ tạo liên kết ở đây nhiều thông tin hơn
Silverfish

1
@Silverfish Tôi đồng ý! Tôi đã cập nhật tiêu đề, cảm ơn.
PascalVKooten

Câu trả lời:


11

Đó thực sự một cái gì đó. Để tìm hiểu, chúng ta cần kiểm tra những gì chúng ta biết về chính mối tương quan.

  1. Ma trận tương quan của biến ngẫu nhiên có giá trị véc tơ là ma trận phương sai hiệp phương sai, hoặc đơn giản là "phương sai" của phiên bản chuẩn hóa của . Nghĩa là, mỗi được thay thế bằng phiên bản được định cỡ lại, được định cỡ lại.X X iX=(X1,X2,,Xp)XXi

  2. Hiệp phương sai của và là kỳ vọng về sản phẩm của các phiên bản trung tâm của chúng. Đó là, viết và , chúng ta cóX j X i = X i - E [ X i ] X j = X j - E [ X j ]XiXjXi=XiE[Xi]Xj=XjE[Xj]

    Cov(Xi,Xj)=E[XiXj].
  3. Phương sai của , mà tôi sẽ viết , không phải là một số duy nhất. Nó là mảng các giá trị Var ( X ) Var ( X ) i j = Cov ( X i , X j ) .XVar(X)

    Var(X)ij=Cov(Xi,Xj).
  4. Cách nghĩ về hiệp phương sai cho việc khái quát hóa dự định là coi nó là một tenxơ . Điều đó có nghĩa là toàn bộ tập hợp các đại lượng , được lập chỉ mục bởi và từ đến , có giá trị thay đổi theo cách dự đoán đặc biệt đơn giản khi trải qua một phép biến đổi tuyến tính. Cụ thể, hãy để là một biến ngẫu nhiên có giá trị véc tơ khác được xác định bởi i j 1 p X Y = ( Y 1 , Y 2 , ... , Y q )vijij1pXY=(Y1,Y2,,Yq)

    Yi=j=1paijXj.

    Các hằng số ( và là các chỉ mục - không phải là thừa) tạo thành một mảng , và . Tính tuyến tính của kỳ vọng ngụ ý ijjq×pA=(aaijijjq×pj=1,...,pi=1,...,qA=(aij)j=1,,pi= =1,Giáo dục,q

    Var(Y)Tôij= =ΣmộtTôikmộtjtôiVar(X)ktôi.

    Trong ký hiệu ma trận,

    Var(Y)= =MộtVar(X)Một'.
  5. Tất cả các thành phần của thực sự là phương sai đơn biến, do Nhận dạng phân cựcVar(X)

    4Cov(XTôi,Xj)= =Var(XTôi+Xj)-Var(XTôi-Xj).

    Điều này cho chúng ta biết rằng nếu bạn hiểu phương sai của các biến ngẫu nhiên đơn biến, bạn đã hiểu hiệp phương sai của các biến bivariate: chúng là các tổ hợp phương sai tuyến tính "chỉ".


Biểu thức trong câu hỏi hoàn toàn tương tự: các biến đã được tiêu chuẩn hóa như trong . Chúng ta có thể hiểu những gì nó đại diện bằng cách xem xét ý nghĩa của nó đối với bất kỳ biến, tiêu chuẩn hóa hay không. Chúng tôi sẽ thay thế mỗi bằng phiên bản trung tâm của nó, như trong và tạo thành số lượng có ba chỉ mục, ( 1 ) X i ( 2 )XTôi(1)XTôi(2)

μ3(X)Tôijk= =E[XTôi'Xj'Xk'].

Đây là những khoảnh khắc trung tâm (đa biến) của cấp3 . Như trong , chúng tạo thành một tenxơ: khi , sau đóY = A X(4)Y= =MộtX

μ3(Y)ijk=l,m,nailajmaknμ3(X)lmn.

Các chỉ mục trong phạm vi tổng ba lần này trên tất cả các kết hợp số nguyên từ đến .p1p

Sự tương tự của bản sắc phân cực là

24μ3(X)ijk=μ3(Xi+Xj+Xk)μ3(XiXj+Xk)μ3(Xi+XjXk)+μ3(XiXjXk).

Ở phía bên tay phải, đề cập đến khoảnh khắc thứ ba trung tâm (đơn biến): giá trị mong đợi của khối lập phương của biến trung tâm. Khi các biến được tiêu chuẩn hóa, thời điểm này thường được gọi là độ lệch . Theo đó, chúng ta có thể nghĩ là độ lệch đa biến của . Nó là một thang bậc ba (nghĩa là có ba chỉ số) có giá trị là sự kết hợp tuyến tính của các độ lệch của các khoản tiền khác nhau và sự khác biệt của . Nếu chúng ta tìm cách giải thích, thì chúng ta sẽ nghĩ về các thành phần này như đo theo kích thước bất kể độ lệch được đo theo một chiều. Trong nhiều trường hợp,μ 3 ( X ) X X i pμ3μ3(X)XXip

  • Những khoảnh khắc đầu tiên đo lường vị trí của một phân phối;

  • Khoảnh khắc thứ hai (ma trận phương sai hiệp phương sai) đo lường mức độ lây lan của nó ;

  • Những khoảnh khắc thứ hai chuẩn (tương quan) chỉ ra cách thức lây lan khác nhau trong không gian ba chiều; vàp

  • Các khoảnh khắc thứ ba và thứ tư được tiêu chuẩn hóa được thực hiện để đo hình dạng của phân phối so với mức độ lây lan của nó.

Để giải thích ý nghĩa của "hình dạng" đa chiều, có thể thấy rằng chúng ta có thể hiểu PCA là một cơ chế để giảm bất kỳ phân phối đa biến nào thành một phiên bản tiêu chuẩn nằm ở gốc và trải đều theo mọi hướng. Sau khi PCA được thực hiện, sau đó, sẽ cung cấp các chỉ số đơn giản nhất về hình dạng đa chiều của phân phối. Những ý tưởng này áp dụng tốt như nhau cho dữ liệu như các biến ngẫu nhiên, bởi vì dữ liệu luôn có thể được phân tích theo cách phân phối theo kinh nghiệm của chúng.μ3


Tài liệu tham khảo

Alan Stuart & J. Keith Ord, Lý thuyết thống kê nâng cao của Kendall Phiên bản thứ năm, Tập 1: Lý thuyết phân phối ; Chương 3, Khoảnh khắc và tích lũy . Nhà xuất bản Đại học Oxford (1987).


Phụ lục: Bằng chứng về bản sắc phân cực

Đặt là các biến đại số. Có cách để cộng và trừ tất cả trong số chúng. Khi chúng tôi nâng từng khoản tiền và chênh lệch này lên sức mạnh , chọn một dấu hiệu phù hợp cho từng kết quả đó và thêm chúng, chúng tôi sẽ nhận được nhiều .2 n n n th x 1 x 2x nx1,Giáo dục,xn2nnnthứ tựx1x2xn

Chính thức hơn, hãy đặt là tập hợp của tất cả -tuples của , sao cho mọi phần tử là một vectơ có hệ số là tất cả . Yêu cầu là n ± 1 s S s = ( s 1 , s 2 , Lôi , s n ) ± 1S={1,1}nn±1sSs=(s1,s2,,sn)±1

(1)2nn!x1x2xn=sSs1s2sn(s1x1+s2x2++snxn)n.

Thật vậy, Định lý đa thức nói rằng hệ số của đơn thức (trong đó là số nguyên không âm tổng hợp với ) trong phần mở rộng của bất kỳ số hạng nào ở bên phải bên là i j nx1i1x2i2xninijn

(ni1,i2,,in)s1i1s2i2snin.

Trong tổng , các hệ số liên quan đến xuất hiện theo cặp trong đó một trong mỗi cặp liên quan đến trường hợp , với hệ số tỷ lệ với lần , bằng thành và cặp kia của mỗi cặp liên quan đến trường hợp , với hệ số tỷ lệ với lần , bằng . Họ hủy trong tổng số bất cứ khi nào là số lẻ. Đối số tương tự áp dụng cho . Hậu quả là,x i 1 1 s 1 = 1 s 1 s i 1 1 1 s 1 = - 1 - 1 ( - 1 ) i 1 ( - 1 ) i 1 + 1 i 1 + 1 i 2 , Trân , i n x i x 1 x 2x n ( n(1)x1i1s1=1s1S1Tôi11S1= =-1-1(-1)Tôi1(-1)Tôi1+1Tôi1+1Tôi2,Giáo dục,Tôincác đơn thức duy nhất xảy ra với các hệ số khác không phải có các lũy thừa lẻ của tất cả các . xTôi Đơn thức duy nhất như vậy là . Nó xuất hiện với hệ sốtrong tất cả điều khoản của tổng. Do đó, hệ số của nó là, QED .x1x2xn(n1,1,Giáo dục,1)= =n!2n2nn!

Chúng tôi chỉ cần lấy một nửa của mỗi cặp được liên kết với : nghĩa là chúng tôi có thể giới hạn phía bên phải của với các điều khoản với và giảm một nửa hệ số ở phía bên trái thành. Điều đó đưa ra chính xác hai phiên bản của Danh tính phân cực được trích dẫn trong câu trả lời này cho các trường hợp và : và .x1(1)S1= =12n-1n!n= =2n= =322-12!= =423-13!= =24

Tất nhiên, Nhận dạng phân cực cho các biến đại số ngay lập tức ngụ ý nó cho các biến ngẫu nhiên: hãy để mỗi là một biến ngẫu nhiên . Hãy kỳ vọng của cả hai bên. Kết quả theo sau tuyến tính của kỳ vọng.xTôiXTôi


Làm tốt về giải thích cho đến nay! Kiểu đa biến có ý nghĩa. Có lẽ bạn có thể thêm một ví dụ cho thấy tầm quan trọng của sự sai lệch đa biến này? Hoặc là một vấn đề trong một mô hình thống kê, hoặc có lẽ thú vị hơn, trường hợp thực tế nào sẽ chịu sự sai lệch đa biến :)?
PascalVKooten

3

Hừm. Nếu chúng ta chạy ...

a <- rnorm(100);
b <- rnorm(100);
c <- rnorm(100)
mean((a-mean(a))*(b-mean(b))*(c-mean(c)))/
  (sd(a) * sd(b) * sd(c))

nó dường như tập trung vào 0 (Tôi chưa thực hiện một mô phỏng thực sự), nhưng như @ttnphns ám chỉ, chạy cái này (tất cả các biến giống nhau)

a <- rnorm(100)
mean((a-mean(a))*(a-mean(a))*(a-mean(a)))/
  (sd(a) * sd(a) * sd(a))

dường như cũng tập trung vào 0, điều này chắc chắn khiến tôi tự hỏi không biết sử dụng cái này có thể là gì.


2
Sự vô nghĩa rõ ràng xuất phát từ thực tế rằng sdhoặc phương sai là một chức năng của bình phương, như là hiệp phương sai. Nhưng với 3 biến, hình khối xuất hiện trong tử số trong khi mẫu số vẫn dựa trên các số hạng bình phương ban đầu
ttnphns

2
Có phải đó là gốc rễ của nó (ý định chơi chữ)? Tử số và mẫu số có cùng kích thước và đơn vị, sẽ hủy, do đó, một mình không làm cho số đo được hình thành kém.
Nick Cox

3
@Nick Đúng vậy. Đây chỉ đơn giản là một trong những khoảnh khắc thứ ba trung tâm đa biến. Nó là một thành phần của một tenxơ bậc ba cung cấp đầy đủ các khoảnh khắc thứ ba (liên quan chặt chẽ đến thành phần thứ tự 3 của hàm tạo tích lũy đa biến). Cùng với các thành phần khác, nó có thể được sử dụng để mô tả sự không đối xứng ("độ lệch" chiều cao hơn) trong phân phối. Tuy nhiên, đó không phải là bất cứ ai gọi là "tương quan": gần như theo định nghĩa, tương quan là một thuộc tính bậc hai của biến được tiêu chuẩn hóa.
whuber

1

Nếu bạn cần tính toán "tương quan" giữa ba hoặc nhiều biến, bạn không thể sử dụng Pearson, vì trong trường hợp này, nó sẽ khác nhau đối với thứ tự các biến khác nhau có một cái nhìn ở đây . Nếu bạn thú vị về sự phụ thuộc tuyến tính hoặc mức độ phù hợp của chúng với dòng 3D, bạn có thể sử dụng PCA, lấy phương sai được giải thích cho PC đầu tiên, hoán vị dữ liệu của bạn và tìm xác suất, rằng giá trị này có thể là do các lý do ngẫu nhiên. Tôi đã thảo luận về một cái gì đó tương tự ở đây (xem chi tiết kỹ thuật bên dưới).

Mã Matlab

% Simulate our experimental data
x=normrnd(0,1,100,1);
y=2*x.*normrnd(1,0.1,100,1);
z=(-3*x+1.5*y).*normrnd(1,2,100,1);
% perform pca
[loadings, scores,variance]=pca([x,y,z]);
% Observed Explained Variance for first principal component
OEV1=variance(1)/sum(variance)
% perform permutations
permOEV1=[];
for iPermutation=1:1000
    permX=datasample(x,numel(x),'replace',false);
    permY=datasample(y,numel(y),'replace',false);
    permZ=datasample(z,numel(z),'replace',false);
    [loadings, scores,variance]=pca([permX,permY,permZ]);
    permOEV1(end+1)=variance(1)/sum(variance);
end

% Calculate p-value
p_value=sum(permOEV1>=OEV1)/(numel(permOEV1)+1)
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.