Cơ sở của hệ số tương quan Pearson

8

Hệ số tương quan Pearson được tính bằng công thức . Làm thế nào để công thức này chứa thông tin rằng hai biến thểvàcó tương quan với nhau hay không? Hoặc, làm thế nào để chúng ta có được công thức này cho hệ số tương quan? $r = \frac{cov(X,Y)}{\sqrt{var(X)} \sqrt{var(Y)}}$ $X$ $Y$

correlation pearson-r

— pranphy
nguồn

8

Vấn đề là . mẫu số $cov(X,Y)$ là để loại bỏ các đơn vị đo (nếu nóiđược đo bằng mét vàbằng kilôgam thìđược đo bằng kilôgam mét cứng để hiểu) và để tiêu chuẩn hóa (nằm giữa -1 và 1 bất kỳ giá trị biến nào bạn có). $\sqrt{var(X)var(Y)}$ $X$ $Y$ $cov(X,Y)$ $cor(X,Y)$

Bây giờ trở lại . Điều này cho thấy các biến khác nhau như thế nào về phương tiện của chúng, do đó đồng phương sai . Chúng ta hãy lấy một ví dụ. $cov(X,Y)$ nhập mô tả hình ảnh ở đây

$\bar X$ $\bar Y$ $X_i$ $Y_i$ $(X_i-\bar X)$ $(Y_i-\bar Y)$ $(X_i-\bar X)(Y_i-\bar Y)$ tích cực. Ngược lại phía trên bên trái và phía dưới bên phải là các khu vực mà sản phẩm này âm tính.

$cov(X,Y)=\frac1{n-1}\sum_{i=1}^n(X_i-\bar X)(Y_i-\bar Y)$ $(X_i-\bar X)(Y_i-\bar Y)$ $(\bar X,\bar Y)$

Như một lưu ý cuối cùng, hiệp phương sai chỉ cho thấy sức mạnh của mối quan hệ tuyến tính . Nếu mối quan hệ là phi tuyến tính, hiệp phương sai không thể phát hiện ra nó.

— chuối.zuokas
nguồn

covariance shows only the strength of a linear relationshipĐây không phải là sự thật. Cov nhạy cảm với cả cường độ tuyến tính và cường độ biến đổi. Lấy X và Y, liên quan nghiêm ngặt tuyến tính. Sau đó kéo hai điểm cực trị trong X, để phóng to var (X). Đám mây bivariate không còn tuyến tính nữa - nó chỉ đơn điệu; Tuy nhiên, cov (X, Y) trở nên lớn hơn! Tuy nhiên, nếu bây giờ chúng ta đưa tổng var (X) + var (Y) về số tiền ban đầu, cov (X, Y) sẽ giảm xuống dưới và dưới giá trị ban đầu của nó, phản ánh thực tế rằng trước đây chúng ta đã xáo trộn tuyến tính.

— ttnphns

Wow, thật thú vị.

— dana.zuokas

3

$\frac{SCP(X,Y)}{\sqrt{SS(X)} \sqrt{SS(Y)}}$

Bây giờ, cosin là thước đo tỷ lệ ; cos (X, Y) = 1 khi và chỉ khi Xi = kYi , đó là khi tất cả các điểm ( i ) nằm trên một đường thẳng xuất phát từ gốc của hệ tọa độ X vs Y. Nếu một trong hai dòng không đi qua điểm gốc hoặc các điểm khởi hành từ đường thẳng cos sẽ trở nên nhỏ hơn. Bởi vì Pearson r là cos của đám mây tập trung vào cả hai trục X và Y , đường chắc chắn đi qua gốc tọa độ; và do đó chỉ có sự khởi hành của các điểm từ nằm trên đường thẳng có thể làm giảm r : r là số đo củatuyến tính .

— ttnphns
nguồn

1

Nếu r = 1, có tương quan tuyến tính hoàn hảo, nếu r = -1 có tương quan tuyến tính âm hoàn hảo, nếu r = 0, không có tương quan tuyến tính. Lý do chúng tôi chia cho độ lệch chuẩn của X và Y là để có được số đo không phụ thuộc vào tỷ lệ.

Xem chủ đề này để có câu trả lời chi tiết hơn.

— Akavall
nguồn