Tại sao tập dữ liệu này không có hiệp phương sai?


8

Sự hiểu biết của tôi về cách thức hoạt động của hiệp phương sai là dữ liệu có tương quan nên có hiệp phương sai cao. Tôi đã gặp một tình huống trong đó dữ liệu của tôi có vẻ tương quan (như thể hiện trong biểu đồ phân tán) nhưng hiệp phương sai gần như bằng không. Làm thế nào hiệp phương sai của dữ liệu có thể bằng 0 nếu chúng có tương quan?

import numpy as np
x1 = np.array([ 0.03551153,  0.01656052,  0.03344669,  0.02551755,  0.02344788,
        0.02904475,  0.03334179,  0.02683399,  0.02966126,  0.03947681,
        0.02537157,  0.03015175,  0.02206443,  0.03590149,  0.03702152,
        0.02697212,  0.03777607,  0.02468797,  0.03489873,  0.02167536])
x2 = np.array([ 0.0372599 ,  0.02398212,  0.03649548,  0.03145494,  0.02925334,
        0.03328783,  0.03638871,  0.03196318,  0.03347346,  0.03874528,
        0.03098697,  0.03357531,  0.02808358,  0.03747998,  0.03804655,
        0.03213286,  0.03827639,  0.02999955,  0.0371424 ,  0.0279254 ])
print np.cov(x1, x2)

array([[  3.95773132e-05,   2.59159589e-05],
       [  2.59159589e-05,   1.72006225e-05]])

nhập mô tả hình ảnh ở đây


4
Gợi ý: Điều gì xảy ra khi bạn nhìn vào mối tương quan? Sự khác biệt giữa hiệp phương sai và tương quan là gì?
aleshing

2
Nếu bạn đang đo các số xuất hiện nhỏ hoặc gần nhau trên một tỷ lệ cụ thể, thì sự khác biệt giữa chúng cũng sẽ nhỏ và các sản phẩm khác biệt dường như còn nhỏ hơn. Hãy thử nhân tất cả dữ liệu của bạn với và sau đó làm lại các phép tính; hiệp phương sai phải lớn gấp 1000000 lần10001000000
Henry

Câu trả lời:


14

Độ lớn của hiệp phương sai phụ thuộc vào độ lớn của dữ liệu và mức độ gần nhau của các điểm dữ liệu đó nằm rải rác xung quanh giá trị trung bình của dữ liệu đó. Thật dễ dàng để nhìn thấy khi bạn nhìn vào công thức:

covx,y= =Σ(xTôi-x¯)(yTôi-y¯)n-1

Trong trường hợp của bạn, độ lệch của x1x2dữ liệu trỏ đến giá trị trung bình của x1x2là:

x1-mean(x1)
 [1]  0.006043341 -0.012907669  0.003978501 -0.003950639 -0.006020309 -0.000423439  0.003873601
 [8] -0.002634199  0.000193071  0.010008621 -0.004096619  0.000683561 -0.007403759  0.006433301
[15]  0.007553331 -0.002496069  0.008307881 -0.004780219  0.005430541 -0.007792829

x2-mean(x2)
 [1]  0.0039622385 -0.0093155415  0.0031978185 -0.0018427215 -0.0040443215 -0.0000098315
 [7]  0.0030910485 -0.0013344815  0.0001757985  0.0054476185 -0.0023106915  0.0002776485
[13] -0.0052140815  0.0041823185  0.0047488885 -0.0011648015  0.0049787285 -0.0032981115
[19]  0.0038447385 -0.0053722615

Bây giờ nếu bạn nhân hai vectơ đó với nhau, rõ ràng bạn sẽ nhận được một số khá nhỏ:

(x1-mean(x1)) * (x2-mean(x2))
 [1] 2.394516e-05 1.202419e-04 1.272252e-05 7.279927e-06 2.434807e-05 4.163041e-09 1.197349e-05
 [8] 3.515290e-06 3.394159e-08 5.452315e-05 9.466023e-06 1.897897e-07 3.860380e-05 2.690611e-05
[15] 3.586993e-05 2.907425e-06 4.136268e-05 1.576570e-05 2.087901e-05 4.186512e-05

n-1

sum((x1-mean(x1)) * (x2-mean(x2))) / (length(x1)-1)
[1] 2.591596e-05

Đó là lý do tại sao độ lớn của hiệp phương sai không nói nhiều về sức mạnh của cách thức x1x2đồng biến. Bằng cách tiêu chuẩn hóa (hoặc chuẩn hóa) hiệp phương sai, chia nó cho tích của độ lệch chuẩn x1x2(rất giống với hiệp phương sai, nghĩa là 2.609127e-05),

r= =covx,ySxSy= =Σ(x1-x¯)(yTôi-y¯)(n-1)SxSy

r= =0,99


7

Chúng ta hãy nói về những gì có thể nhìn thấy từ một cái nhìn nhanh vào cốt truyện và một số kiểm tra hợp lý (đây là những điều người ta có thể làm như một vấn đề tất nhiên khi nhìn vào dữ liệu, chỉ đơn giản là được trang bị một vài sự kiện cơ bản):

nn-1

10-4

Do đó, các giá trị quan sát được của phương sai trong đầu ra của bạn có ý nghĩa; cả hai đều ít hơn thế, nhưng hơn một phần mười của nó.

14

0,02(0,02)2/4= =10-4

Từ phân tích rất thô đó, không có gì đáng ngạc nhiên.


0,0230,0158,6×10-5

2.9×10-5

2.9×10-52.6×10-5

(Không quá tệ cho việc tính toán ngược phong bì nhanh chóng bắt đầu từ phạm vi đến hai con số quan trọng!)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.