Cơ sở của hệ số tương quan Pearson


8

Hệ số tương quan Pearson được tính bằng công thức . Làm thế nào để công thức này chứa thông tin rằng hai biến thểXYcó tương quan với nhau hay không? Hoặc, làm thế nào để chúng ta có được công thức này cho hệ số tương quan?r=cov(X,Y)var(X)var(Y)XY

Câu trả lời:


8

Vấn đề là . mẫu số cov(X,Y) là để loại bỏ các đơn vị đo (nếu nóiXđược đo bằng mét vàY tínhbằng kilôgam thìcov(X,Y)được đo bằng kilôgam mét cứng để hiểu) và để tiêu chuẩn hóa (cor(X,Y)nằm giữa -1 và 1 bất kỳ giá trị biến nào bạn có).var(X)var(Y)XYcov(X,Y)cor(X,Y)

Bây giờ trở lại . Điều này cho thấy các biến khác nhau như thế nào về phương tiện của chúng, do đó đồng phương sai . Chúng ta hãy lấy một ví dụ.cov(X,Y)nhập mô tả hình ảnh ở đây

X¯Y¯XiYi(XiX¯)(YiY¯)(XiX¯)(YiY¯)tích cực. Ngược lại phía trên bên trái và phía dưới bên phải là các khu vực mà sản phẩm này âm tính.

cov(X,Y)=1n1i=1n(XiX¯)(YiY¯)(XiX¯)(YiY¯)(X¯,Y¯)

Như một lưu ý cuối cùng, hiệp phương sai chỉ cho thấy sức mạnh của mối quan hệ tuyến tính . Nếu mối quan hệ là phi tuyến tính, hiệp phương sai không thể phát hiện ra nó.


covariance shows only the strength of a linear relationshipĐây không phải là sự thật. Cov nhạy cảm với cả cường độ tuyến tính và cường độ biến đổi. Lấy X và Y, liên quan nghiêm ngặt tuyến tính. Sau đó kéo hai điểm cực trị trong X, để phóng to var (X). Đám mây bivariate không còn tuyến tính nữa - nó chỉ đơn điệu; Tuy nhiên, cov (X, Y) trở nên lớn hơn! Tuy nhiên, nếu bây giờ chúng ta đưa tổng var (X) + var (Y) về số tiền ban đầu, cov (X, Y) sẽ giảm xuống dưới và dưới giá trị ban đầu của nó, phản ánh thực tế rằng trước đây chúng ta đã xáo trộn tuyến tính.
ttnphns

Wow, thật thú vị.
dana.zuokas

3

SCP(X,Y)SS(X)SS(Y)

Bây giờ, cosin là thước đo tỷ lệ ; cos (X, Y) = 1 khi và chỉ khi Xi = kYi , đó là khi tất cả các điểm ( i ) nằm trên một đường thẳng xuất phát từ gốc của hệ tọa độ X vs Y. Nếu một trong hai dòng không đi qua điểm gốc hoặc các điểm khởi hành từ đường thẳng cos sẽ trở nên nhỏ hơn. Bởi vì Pearson rcos của đám mây tập trung vào cả hai trục XY , đường chắc chắn đi qua gốc tọa độ; và do đó chỉ có sự khởi hành của các điểm từ nằm trên đường thẳng có thể làm giảm r : r là số đo củatuyến tính .


1

Nếu r = 1, có tương quan tuyến tính hoàn hảo, nếu r = -1 có tương quan tuyến tính âm hoàn hảo, nếu r = 0, không có tương quan tuyến tính. Lý do chúng tôi chia cho độ lệch chuẩn của X và Y là để có được số đo không phụ thuộc vào tỷ lệ.

Xem chủ đề này để có câu trả lời chi tiết hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.