Làm thế nào để hiểu công thức hệ số tương quan?


15

Bất cứ ai có thể giúp tôi hiểu công thức tương quan Pearson? mẫu r = giá trị trung bình của các sản phẩm của các điểm chuẩn của các biến XY .

Tôi hiểu được lý do tại sao họ cần tiêu chuẩn hóa và , nhưng làm thế nào để hiểu các sản phẩm của cả hai điểm z? XY

Công thức này còn được gọi là "hệ số tương quan thời điểm sản phẩm", nhưng lý do căn bản của hành động sản phẩm là gì? Tôi không chắc là tôi đã làm rõ câu hỏi của mình chưa, nhưng tôi chỉ muốn nhớ công thức bằng trực giác.


11
Bạn có thể muốn đọc bài báo "Mười ba cách để xem xét hệ số tương quan" (Rodgers & Nicewander 1988). Như tiêu đề ngụ ý, nó thảo luận về mười ba quan điểm trực quan khác nhau về hệ số tương quan. Vì vậy, hy vọng ít nhất một người sẽ nhấp vào :)
một nửa vượt qua

10
13 cách có thể được tìm thấy ở đây
Dimitriy V. Masterov

4
Cách thứ 14 để hiểu mối tương quan (về các sản phẩm của điểm z) là tìm hiểu hiệp phương sai của các biến được tiêu chuẩn hóa, như được minh họa tại stats.stackexchange.com/questions/18058/ .
whuber

4
... Và cách thứ 15 sử dụng các vòng tròn được hiển thị tại stats.stackexchange.com/a/46508/919 : một hình vuông nhỏ nhất phù hợp để giảm thiểu tổng diện tích của các vòng tròn (có ít nhất hai cách để làm điều này khi các điểm thực hiện không chính xác xếp hàng) và hệ số tương quan sau đó diện tích trung bình của chúng (khi cả hai biến được tiêu chuẩn hóa).
whuber

Câu trả lời:


14

Trong các ý kiến, 15 cách để hiểu hệ số tương quan đã được đề xuất:


13 cách được thảo luận trong bài báo của Rodgers và Nicewander (Thống kê người Mỹ, tháng 2 năm 1988) là

  1. Một chức năng của Điểm thô và Phương tiện,

    r=(XiX¯)(YiY¯)(XiX¯)2(YiY¯)2.
  2. Hiệp phương sai chuẩn hóa,

    r=sXY/(sXsY)

    Trong đó là hiệp phương sai mẫu và s Xs Y là độ lệch chuẩn mẫu.sXYsXsY

  3. Độ dốc chuẩn hóa của đường hồi quy,

    r=bYXsXsY=bXYsYsX,

    trong đó b X Y là sườn của các đường hồi quy.bYXbXY

  4. Ý nghĩa hình học của hai sườn hồi quy,

    r=±bYXbXY.
  5. Căn bậc hai của tỷ lệ hai phương sai (Tỷ lệ biến thiên được tính cho),

    r=(YiYi^)2(YiY¯)2=SSREGSSTOT=sY^sY.
  6. Sản phẩm chéo trung bình của các biến được tiêu chuẩn hóa,

    r=zXzY/N.
  7. Một chức năng của góc giữa hai đường hồi quy chuẩn hóa. Hai đường hồi quy (của so với XX so với Y ) đối xứng nhau về đường chéo. Hãy để góc giữa hai đường thẳng được β . Sau đóYXXYβ

    r=sec(β)±tan(β).
  8. Hàm của góc giữa hai vectơ biến,

    r=cos(α).
  9. Một phương sai thay đổi tỷ lệ của sự khác biệt giữa các điểm chuẩn. Đặt là sự khác biệt giữa các biến XY được tiêu chuẩn hóa cho mỗi quan sát,zYzXXY

    r=1s(zYzX)2/2=s(zY+zX)2/21.
  10. Ước tính từ Quy tắc "Balloon",

    r1(h/H)2

    Trong đó là phạm vi dọc của toàn bộ phân tán X - Yh là phạm vi thông qua "tâm phân phối trên trục X " (nghĩa là thông qua điểm phương tiện).HXYhX

  11. Liên quan đến các Ellipses của sự cô lập,

    r=D2d2D2+d2

    trong đó d lần lượt là độ dài trục chính và phụ. r cũng bằng độ dốc của đường tiếp tuyến của một isocontour (theo tọa độ chuẩn) tại điểm đường viền đi qua trục dọc.Ddr

  12. Một chức năng của thống kê kiểm tra từ các thí nghiệm được thiết kế,

    r=tt2+n2

    where t is the test statistic in a two-independent sample t test for a designed experiment with two treatment conditions (coded as X=0,1) and n is the combined total number of observations in the two treatment groups.

  13. The Ratio of Two Means. Assume bivariate normality and standardize the variables. Select some arbitrarily large value Xc of X. Then

    r=E(Y|X>Xc)E(X|X>Xc).

(Most of this is verbatim, with very slight changes in some of the notation.)

Some other methods (perhaps original to this site) are

  • Via circles. r is the slope of the regression line in standardized coordinates. This line can be characterized in various ways, including geometric ones, such as minimizing the total area of circles drawn between the line and the data points in a scatterplot.

  • By coloring rectangles. Covariance can be assessed by coloring rectangles in a scatterplot (that is, by summing signed areas of rectangles). When the scatterplot is standardized, the net amount of color--the total signed error--is r.


2
Thank you, @Avraham, for trying to bring this unanswered thread to some closure by posting an answer here.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.