Làm thế nào bạn sẽ giải thích sự khác biệt giữa tương quan và hiệp phương sai?

109

Theo dõi câu hỏi này, làm thế nào bạn sẽ giải thích hiệp phương sai cho một người chỉ hiểu ý nghĩa? , trong đó giải quyết vấn đề giải thích hiệp phương sai cho một giáo dân, đưa ra một câu hỏi tương tự trong tâm trí tôi.

Làm thế nào một người sẽ giải thích cho một số liệu thống kê về sự khác biệt giữa hiệp phương sai và tương quan ? Dường như cả hai đều đề cập đến sự thay đổi trong một biến được liên kết lại với một biến khác.

Tương tự như câu hỏi được đề cập, thiếu công thức sẽ thích hợp hơn.

correlation covariance

— pmgjones
nguồn

109

Vấn đề với hiệp phương sai là rất khó so sánh: khi bạn tính toán hiệp phương sai của một tập hợp độ cao và trọng lượng, như được biểu thị bằng (tương ứng) mét và kilôgam, bạn sẽ nhận được hiệp phương sai khác khi bạn thực hiện ở các đơn vị khác ( điều này đã gây ra vấn đề cho những người làm điều tương tự có hoặc không có hệ thống số liệu!), nhưng cũng khó có thể nói nếu (ví dụ) chiều cao và cân nặng 'covary' hơn, nói về chiều dài ngón chân và ngón tay của bạn , đơn giản là vì 'thang đo', hiệp phương sai được tính toán là khác nhau.

Giải pháp cho vấn đề này là 'bình thường hóa' hiệp phương sai: bạn chia hiệp phương sai cho một số đại diện cho tính đa dạng và tỷ lệ trong cả hai hiệp phương sai, và kết thúc với một giá trị được đảm bảo nằm giữa -1 và 1: tương quan. Dù các biến ban đầu của bạn là đơn vị nào, bạn sẽ luôn nhận được cùng một kết quả và điều này cũng sẽ đảm bảo rằng bạn có thể, ở một mức độ nhất định, so sánh xem hai biến 'có tương quan' hơn hai biến khác hay không, chỉ bằng cách so sánh tương quan của chúng.

Lưu ý: các giả định ở trên cho rằng người đọc đã hiểu khái niệm hiệp phương sai.

— Nick Sabbe
nguồn

2

+1 Bạn có nghĩa là viết "tương quan" thay vì "hiệp phương sai" trong câu cuối không?

— whuber

Bạn có chắc chắn không thể so sánh hiệp phương sai với các đơn vị khác nhau? Đơn vị đi qua hiệp phương sai nhân - nếu X bạn đang ở trong cm, và Y bạn đang ở trong s, sau đó bạn

. Và sau đó bạn chỉ có thể nhân với kết quả bằng hệ số chuyển đổi đơn vị. Hãy thử nó trong R:

c o v (X, Y) = z c m \cdot s

$cov(X,Y)=z\ cm\cdot s$ cov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)

— naught101

3

@ naught101 Tôi nghi ngờ vấn đề là, nếu tôi nói với bạn rằng

và không có gì khác, bạn sẽ không biết liệu

có dự đoán cao về

hay không, trong khi tôi nói với bạn rằng

bạn sẽ có một cái gì đó dễ hiểu hơn một chút.

Cov (X, Y) = 10^{1} 0

$\mbox{Cov}(X, Y) = 10^10$

X

$X$

Y

$Y$

Cor (X, Y) = .9

$\mbox{Cor}(X, Y) = .9$

— anh chàng

@guy: Đó sẽ là hiệp phương sai không có đơn vị: PI nghĩ rằng điều quan trọng là bạn không thể dễ dàng so sánh hiệp phương sai từ hai tập dữ liệu có phương sai khác nhau. Ví dụ: nếu bạn có mối quan hệ B = 2 * A và hai bộ dữ liệu, {A1, B1} và {A2, B2}, trong đó A1 có phương sai 0,5 và A2 có phương sai là 2, thì

sẽ lớn hơn nhiều so với

, mặc dù mối quan hệ này hoàn toàn giống nhau.

c o v (A 2, B 2)

$cov(A2, B2)$

c o v (A 1, B 1)

$cov(A1, B1)$

— ness101

3

Vì vậy, trong điều kiện đơn giản corelation> hiệp phương sai

— Karl Morrison

58

Các yêu cầu của các loại câu hỏi này đánh tôi là một chút kỳ quái. Đây là một khái niệm / công thức toán học , nhưng tôi muốn nói về nó trong một số bối cảnh hoàn toàn không có ký hiệu toán học. Tôi cũng nghĩ rằng cần phải nói rằng đại số thực tế cần thiết để hiểu các công thức, tôi nghĩ, nên được dạy cho hầu hết các cá nhân trước khi học cao hơn (không cần hiểu về đại số ma trận, chỉ cần đại số đơn giản là đủ).

Vì vậy, lúc đầu thay vì bỏ qua hoàn toàn công thức và nói về nó trong một số loại tương tự ma thuật và heuristic, chúng ta chỉ cần nhìn vào công thức và cố gắng giải thích các thành phần riêng lẻ trong các bước nhỏ. Sự khác biệt về hiệp phương sai và tương quan, khi nhìn vào các công thức, sẽ trở nên rõ ràng. Trong khi nói về mặt tương tự và heuristic tôi nghi ngờ sẽ làm mờ đi hai khái niệm tương đối đơn giản và sự khác biệt của chúng trong nhiều tình huống.

Vì vậy, hãy bắt đầu với một công thức cho hiệp phương sai mẫu (những cái tôi vừa lấy và chấp nhận từ wikipedia);

$\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})$

Để giúp mọi người tăng tốc, hãy xác định rõ ràng tất cả các yếu tố và thao tác trong công thức.

và là mỗi phép đo của hai thuộc tính riêng biệt của cùng một quan sát $x_i$ $y_i$
và là phương tiện (hoặc trung bình) của mỗi thuộc tính $\bar{x}$ $\bar{y}$
Cho , hãy nói điều này có nghĩa là chúng ta chia kết quả cuối cùng cho. $\frac{1}{n-1}$ ${n-1}$
có thể là ký hiệu nước ngoài đối với một số người, vì vậy có thể hữu ích để giải thích thao tác này. Nó chỉ đơn giản là tổng của tất cả cácquan sát riêng biệt của và đại diện cho tổng số quan sát. $\sum_{i=1}^{n}$ $i$ $n$

Tại thời điểm này, tôi có thể giới thiệu một ví dụ đơn giản, để nói về các yếu tố và hoạt động để nói. Vì vậy, ví dụ, hãy tạo một bảng, trong đó mỗi hàng tương ứng với một quan sát (và và được dán nhãn thích hợp). Người ta có thể làm cho các ví dụ này cụ thể hơn (ví dụ: đại diện cho tuổi và đại diện cho trọng lượng), nhưng đối với cuộc thảo luận của chúng tôi ở đây thì không thành vấn đề. $x$ $y$ $x$ $y$

Tại thời điểm này nếu bạn cảm thấy thao tác tổng trong công thức có thể chưa được hiểu đầy đủ, bạn có thể giới thiệu lại nó trong ngữ cảnh đơn giản hơn nhiều. Nói chỉ cần trình bày rằng giống như nói trong ví dụ này; $\sum_{i=1}^{n}(x_i)$

Bây giờ lộn xộn cần được xoá sổ, và chúng ta có thể làm việc theo cách của chúng tôi vào phần thứ hai của công thức, . Bây giờ, giả sử người đã biết những gì giá trị trung bình, và đứng cho, và tôi sẽ nói, là đạo đức giả của ý kiến riêng của tôi trước đó trong bài viết, người ta chỉ có thể tham khảo giá trị trung bình về mặt chẩn đoán đơn giản (ví dụ giữa của phân phối). Người ta có thể thực hiện quy trình này một lần tại một thời điểm. Câu lệnh $(x_i-\bar{x})(y_i-\bar{y})$ $\bar{x}$ $\bar{y}$ $(x_i-\bar{x})$ chỉ là kiểm tra độ lệch / khoảng cách giữa mỗi lần quan sát và giá trị trung bình của tất cả các quan sát cho thuộc tính cụ thể đó. Do đó, khi quan sát xa hơn giá trị trung bình, thao tác này sẽ được cung cấp giá trị cao hơn. Sau đó, người ta có thể tham khảo lại bảng ví dụ đã cho và chỉ cần trình bày thao tác trên vectơ quan sát . $x$

x x_bar (x - x_bar)
2 4     -2
4 4      0
9 4      5
5 4      1
0 4     -4

Hoạt động là tương tự cho vectơ , nhưng chỉ để gia cố, bạn cũng có thể trình bày thao tác đó. $y$

y y_bar (y - y_bar)
5  6     -1
8  6      2
3  6     -3
6  6      0
8  6      2

$(x_i-\bar{x})$ $(y_i-\bar{y})$ $(x_i-\bar{x})\cdot(y_i-\bar{y})$

Lưu ý về những gì xảy ra khi nhân, nếu hai quan sát đều có khoảng cách lớn hơn giá trị trung bình, thì quan sát kết quả sẽ có giá trị dương thậm chí còn lớn hơn (điều tương tự là đúng nếu cả hai quan sát đều có khoảng cách lớn dưới giá trị trung bình, vì nhân hai âm bằng một tích cực). Cũng lưu ý rằng nếu một quan sát cao hơn giá trị trung bình và khác quan sát thấp hơn giá trị trung bình, giá trị kết quả sẽ lớn (về mặt tuyệt đối) và âm (như một lần dương một số âm bằng một số âm). Cuối cùng lưu ý rằng khi một giá trị rất gần với giá trị trung bình của một trong hai lần quan sát, nhân hai giá trị sẽ dẫn đến một số nhỏ. Một lần nữa chúng ta chỉ có thể trình bày thao tác này trong một bảng.

(x - x_bar) (y - y_bar)  (x - x_bar)*(y - y_bar)
-2             -1                2
 0              2                0  
 5             -3              -15 
 1              0                0
-4              2               -8

$n-1$

(x - x_bar)*(y - y_bar)
-----------------------
   2
   0
 -15
   0
+ -8
-----
 -21

-21/(5-1) = -5.25

Tại thời điểm này, bạn có thể muốn củng cố nơi 5 đến từ đâu, nhưng điều đó sẽ đơn giản như tham khảo lại bảng và đếm số lượng quan sát (hãy để lại sự khác biệt giữa mẫu và dân số sang thời điểm khác).

$\rho$

$\rho = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}$

$Cov(x,x) = Var(x)$ ). Và tất cả các khái niệm tương tự mà bạn đã giới thiệu với hiệp phương sai được áp dụng (nghĩa là nếu một chuỗi có nhiều giá trị khác xa so với ý nghĩa của nó, nó sẽ có phương sai cao). Có thể lưu ý ở đây rằng một chuỗi không thể có phương sai âm (cũng nên theo logic của toán học đã trình bày trước đó).

$Var(x)Var(y)$ $\sqrt{Var(x)Var(y)}$

Tôi hiểu trong một số trường hợp mức độ điều trị này sẽ không phù hợp. Thượng viện cần bản tóm tắt điều hành . Trong trường hợp đó, bạn có thể tham khảo lại các heuristic đơn giản mà mọi người đã sử dụng trong các ví dụ khác, nhưng Rome không được xây dựng trong một ngày. Và với thượng viện, người yêu cầu tóm tắt điều hành, nếu bạn có quá ít thời gian, có lẽ bạn chỉ nên lấy lời của tôi cho nó, và phân phát với các thủ tục tương tự và gạch đầu dòng.

— Andy W
nguồn

4

cov (X, Y) = = E [(X - E [X]) (Y - E [Y])]

$\text{cov}(X,Y)=\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])]$

— Tây An

14

+1, điều này khá tốt. Tôi sẽ không quá quan trọng về giới thiệu khái niệm, tuy nhiên. Tôi đã làm việc với những người có đủ sự lo lắng về toán học cho thấy một công thức có khả năng làm mất họ. Tôi thường giúp họ tăng tốc với trực giác thứ 1, và sau đó đi bộ qua toán học một cách đơn giản & kỹ lưỡng (giống như bạn làm ở đây) sau đó . Theo cách đó, họ chỉ học cách toán học đại diện cho những gì họ đã biết, và nếu họ bỏ học về mặt tinh thần, họ vẫn học được những ý tưởng lớn. Là một điểm tiếp tuyến, tôi làm việc qua toán học trong Excel, điều mà tôi thấy rất tốt cho việc này.

— gung

2

N

$N$

N - 1

$N-1$

(x_{i} - \bar{x}) (y_{i} - \bar{y})

$(x_i-\bar{x})(y_i-\bar{y})$

ρ

$\rho$

r

$r$ ở đây , vd

— gung

Cảm ơn @gung, tôi đã thay đổi lỗi đánh máy trong công thức đầu tiên và sau đó để tương quan, tôi lấy căn bậc hai của phương sai nhân (thay vì xác định độ lệch chuẩn). Khi sử dụng rho so với biểu tượng khác, tôi cũng không cảm thấy quá mạnh mẽ. Nếu tôi đang giảng dạy và có một cuốn sách văn bản, tôi có thể chỉ muốn phù hợp với văn bản. Hy vọng rằng một biểu tượng Hy Lạp nữa không gây ra sự hỗn loạn!

— Andy W

1

Nếu tôi có thể nâng cao câu trả lời của bạn 100 lần tôi sẽ làm. Thật là một lời giải thích tuyệt vời!

— Julian A.

10

$\sqrt{Var[x]Var[y]}$

Nghĩa là, mối tương quan chỉ đơn giản là một đại diện của hiệp phương sai nên kết quả phải nằm giữa -1 (tương quan hoàn toàn nghịch đảo) với +1 (tương quan hoàn toàn tích cực), lưu ý rằng giá trị gần bằng 0 có nghĩa là hai biến không tương quan.

Hiệp phương sai không bị ràng buộc và thiếu bối cảnh khi so sánh với các hiệp phương sai khác. Bằng cách chuẩn hóa / điều chỉnh / chuẩn hóa hiệp phương sai thành một mối tương quan, các bộ dữ liệu có thể được so sánh dễ dàng hơn.

Như bạn có thể tưởng tượng, có nhiều cách khác nhau mà một thống kê (như hiệp phương sai) có thể được chuẩn hóa / tiêu chuẩn hóa. Công thức toán học cho mối quan hệ giữa tương quan và hiệp phương sai đơn giản phản ánh việc sử dụng các thống kê quy ước (cụ thể là điều chỉnh theo độ lệch chuẩn của chúng):

r = = \frac{c o v (x, y)}{\sqrt{V một r [x] V một r [y]}}

$r = \frac{cov(x,y)}{\sqrt{Var[x]Var[y]}}$

— D Dawg
nguồn

5

Nếu bạn đã quen thuộc với ý tưởng định tâm và tiêu chuẩn hóa, x-xbar là trung tâm x theo nghĩa của nó. Áp dụng tương tự cho y. Vì vậy, hiệp phương sai chỉ đơn giản là trung tâm dữ liệu. Tuy nhiên, sự tương quan không chỉ tập trung vào dữ liệu mà còn chia tỷ lệ bằng cách sử dụng độ lệch chuẩn (chuẩn hóa). Phép nhân và phép tính tổng là sản phẩm chấm của hai vectơ và nó cho biết hai vectơ này song song với nhau như thế nào (hình chiếu của một vectơ này lên vectơ kia). Việc phân chia (n-1) hoặc lấy giá trị dự kiến là chia tỷ lệ cho số lượng quan sát. Suy nghĩ?

— người dùng31180
nguồn

3

Theo như tôi đã hiểu. Tương quan là một phiên bản "bình thường hóa" của hiệp phương sai.

— Karl Morrison
nguồn

2

Như nhiều bài viết chứng thực , "bình thường hóa" có nhiều ý nghĩa khác nhau. Cái nào bạn đang dùng?

— whuber

-3

Tương quan được chia tỷ lệ giữa -1 và +1 tùy thuộc vào việc có tương quan dương hay âm và không có thứ nguyên. Tuy nhiên, hiệp phương sai nằm trong khoảng từ 0, trong trường hợp có hai biến độc lập, đến Var (X), trong trường hợp hai bộ dữ liệu bằng nhau. Đơn vị của COV (X, Y) là đơn vị của X lần đơn vị của Y.

— Nagaraj
nguồn

6

Hiệp phương sai có thể âm, vì vậy nó không bị giới hạn ở mức 0. Nó cũng không rõ ràng với tôi ý của bạn về câu cuối cùng của bạn là gì The units of COV(X,Y) are the units of X times the units of Y., quan tâm đến việc xây dựng?

— Andy W

@AndyW không phải là phần đơn vị rõ ràng từ định nghĩa?

Cov (X, Y) = E [(X - E [X]) (Y - E [Y])]

$\operatorname{Cov}(X,Y) = \operatorname{E}{\big[(X - \operatorname{E}[X])(Y - \operatorname{E}[Y])\big]}$

1

@ naught101, Các đơn vị đi qua? Nhận xét ban đầu của tôi cho Nagaraj là nhắc nhở rõ ràng hơn nữa, vì những tuyên bố mơ hồ như câu trích dẫn mà tôi khẳng định sẽ không hữu ích cho bất kỳ ai. Vì vậy, tại sao chúng ta không thể giải thích hiệp phương sai là "đơn vị của x nhân với đơn vị của y", bởi vì đó không phải là nó. Một tuyên bố có khả năng đúng hơn (đối với hiệp phương sai mẫu) sẽ là " trung bình của các sản phẩm có độ lệch trung bình ". tiếp ...

— Andy W

1

Bây giờ, độ lệch trung bình chắc chắn không giống với các đơn vị ban đầu và thống kê kết quả cho hiệp phương sai không chỉ đơn giản phụ thuộc vào giá trị trung bình và phương sai của các thuộc tính ban đầu. Hiệp phương sai, trong và của chính nó, cho bạn biết không có gì mà không biết phương sai của các thuộc tính ban đầu.

— Andy W