Tại sao Pearson ρ chỉ là một biện pháp liên kết toàn diện nếu phân phối chung là đa biến thông thường?


16

Khẳng định này đã được nêu ra trong câu trả lời hàng đầu cho câu hỏi này . Tôi nghĩ rằng câu hỏi "tại sao" đủ khác biệt để nó đảm bảo một chủ đề mới. Googling "biện pháp liên kết toàn diện" không tạo ra bất kỳ lượt truy cập nào và tôi không chắc cụm từ đó có nghĩa gì.

Câu trả lời:


15

Có thể tốt nhất để hiểu "thước đo liên kết" trong phân phối đa biến để bao gồm tất cả các thuộc tính vẫn giữ nguyên khi các giá trị được tùy ý thay đổi kích thước và được lưu lại. Làm như vậy có thể thay đổi phương tiện và phương sai thành bất kỳ giá trị lý thuyết nào cho phép (phương sai phải tích cực; phương tiện có thể là bất cứ điều gì).

Các hệ số tương quan ("Pearson ") sau đó hoàn toàn xác định phân phối chuẩn nhiều biến số. Một cách để thấy điều này là xem xét bất kỳ định nghĩa công thức nào, chẳng hạn như các công thức cho hàm mật độ hoặc hàm đặc trưng. Chúng chỉ liên quan đến phương tiện, phương sai và hiệp phương sai - nhưng hiệp phương sai và tương quan có thể được suy ra từ nhau khi bạn biết phương sai.ρ

Gia đình bình thường đa biến không phải là gia đình phân phối duy nhất thích tài sản này. Ví dụ, bất kỳ phân phối nhiều biến số (đối với bậc tự do vượt quá ) đều có ma trận tương quan được xác định rõ và hoàn toàn được xác định bởi hai thời điểm đầu tiên.2


Tôi có đúng không theo định nghĩa bạn đang áp dụng ở đây, hiệp phương sai sẽ không phải là thước đo liên kết? Vì nó sẽ có xu hướng mở rộng khi phương sai mở rộng.
user1205901 - Phục hồi Monica

2
Đúng rồi. Mặc dù hiệp phương sai rõ ràng có liên quan đến một biện pháp liên kết, nhưng bản thân nó không phải là một vì nó cũng bị ảnh hưởng bởi các yếu tố khác.
whuber

19

Biến thể có thể được liên kết theo cách mà mối tương quan Pearson hoàn toàn mù quáng.

ρxyz

nhập mô tả hình ảnh ở đây

Đây là một ví dụ khác về các biến thể liên quan nhưng không tương quan:

nhập mô tả hình ảnh ở đây

(Điểm cơ bản đang được thực hiện về các bản phân phối, mặc dù tôi đang minh họa nó bằng dữ liệu ở đây.)

Ngay cả khi các biến thể có tương quan, nhìn chung, tương quan Pearson không cho bạn biết làm thế nào - bạn có thể có các hình thức liên kết rất khác nhau có cùng tương quan Pearson, nhưng khi các biến thể là đa biến bình thường, ngay khi tôi nói với bạn mối tương quan bạn có thể nói chính xác làm thế nào các biến thể được tiêu chuẩn hóa có liên quan).

ρ

(Một cách phổ biến để giải quyết liên kết đa biến là thông qua các công thức. Có rất nhiều câu hỏi trên trang web liên quan đến các công thức; bạn có thể thấy một số trong số chúng hữu ích)


Có dữ liệu thế giới thực với phân phối như vậy?

@ what Có dữ liệu thế giới thực thậm chí được rút ra từ các bản phân phối bình thường? Tôi nghi ngờ điều đó, vì vậy (vì các lề của tôi hoàn toàn bình thường trong sơ đồ) sẽ khiến câu trả lời "không" ngay lập tức. Điểm quan trọng của các ví dụ là chỉ ra rõ ràng lý do tại sao liên kết giữa các biến ngẫu nhiên không đơn giản như đôi khi được giả định (mọi người thường tính toán tương quan Pearson để đo liên kết như thế nào? Khá thường xuyên) và cũng chỉ ra rằng có tỷ suất lợi nhuận bình thường và đa biến bình thường là khác nhau. Những ví dụ rất thực tế trong đó mối tương quan Pearson không nắm bắt được những gì đang diễn ra chắc chắn xảy ra.
Glen_b -Reinstate Monica

Chúng ta đừng nói về phân phối một lúc. Khi chúng ta tính toán tương quan từ một đám mây chấm, chúng ta giả sử một "hình dạng hình học" cơ bản (tuyến tính, hyperbolic, logarit, sin, v.v.) tương quan lý tưởng mà từ đó các chấm trong đám mây lệch do một số "lỗi". Bây giờ tất cả các hình dạng lý tưởng mà tôi đã thấy được trừu tượng hóa từ dữ liệu thực trong đó liên tục (không nghỉ) và luôn tăng dọc theo ít nhất một trục (ví dụ, không phải là hình tròn). Kiến thức về dữ liệu của tôi còn hạn chế, vì vậy tôi đã tự hỏi liệu trên thực tế có dữ liệu trong thế giới thực có tương quan không liên tục hay tuần hoàn.

Ví dụ, có thể có dữ liệu rằng nếu tôi vẽ nó sẽ trông giống như hai đám mây chấm. Nếu tôi mù quáng tính toán các mối tương quan trên dữ liệu này, tôi có thể tìm thấy một, trong khi (hoặc vì vậy tôi đã được thông báo) cốt truyện chỉ rõ rằng tôi đang thiếu một số biến gây nhiễu không xác định, nếu tôi tính đến nó, sẽ giải quyết mối quan hệ giả trong tôi dữ liệu. Nếu giáo sư của tôi xem xét các ví dụ hình chữ "x" hoặc "y" của bạn, ông sẽ nói với tôi rằng tôi có hai tập hợp dữ liệu riêng biệt lẫn lộn.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.