Tại sao không tương quan không nhất thiết ngụ ý độc lập


41

Nếu hai biến có tương quan 0, tại sao chúng không nhất thiết phải độc lập? Là các biến không tương quan độc lập trong các trường hợp đặc biệt? Nếu có thể, tôi đang tìm kiếm một lời giải thích trực quan, không phải là một giải thích kỹ thuật cao.


10
Tương quan là một thước đo của sự phụ thuộc tuyến tính (hiệp hội). có thể hai biến ngẫu nhiên không tương quan nhưng phụ thuộc phi tuyến.
Mark L. Stone


6
Không tương quan hàm ý độc lập nếu các biến là đa biến bình thường. Điều này không giống với mỗi biến là bình thường - xem ở đây để biết một số biểu đồ phân tán của các biến thông thường tương quan nhưng không phụ thuộc (mỗi biến là bình thường riêng lẻ)
Glen_b

1
Tương quan (không đủ tiêu chuẩn) có thể bao gồm tương quan xếp hạng, v.v., trong đó sự phụ thuộc đơn điệu là vấn đề, v.v.
Nick Cox

1
Về triển vọng, tôi khuyên bạn nên xem Wikipedia "tương quan khoảng cách" như một thước đo độc lập.
ttnphns

Câu trả lời:


41

Tương quan đo lường mối liên kết tuyến tính giữa hai biến đã cho và nó không có nghĩa vụ phát hiện bất kỳ hình thức liên kết nào khác.

Vì vậy, hai biến đó có thể được liên kết theo một số cách phi tuyến tính khác và mối tương quan không thể phân biệt với trường hợp độc lập.

P ( X = x ) = 1 / 3XP(X= =x)= =1/3x= =-1,0,1Y= =X2


1
Tôi đang tìm kiếm bằng chứng về phương sai ngẫu nhiên là không tương quan nhưng vẫn phụ thuộc tuy nhiên không có câu trả lời trực tiếp nào cho câu hỏi của tôi tiết lộ sự thật trực quan. câu trả lời của bạn, mặt khác, cho tôi một góc rất tốt để suy nghĩ về nó, cảm ơn rất nhiều!
stucash

1
@stucash niềm vui của tôi! Đó là một ví dụ cũ mà tôi đã học
Marcelo Ventura

23

Có một sự thiếu nghiêm ngặt tổng quát trong việc sử dụng từ "tương quan" vì lý do đơn giản là nó có thể có nhiều giả định và ý nghĩa khác nhau. Cách sử dụng đơn giản nhất, lỏng lẻo và phổ biến nhất là có một mối liên hệ mơ hồ, mối quan hệ hoặc sự thiếu độc lập giữa một cặp biến ngẫu nhiên tĩnh.

Ở đây, số liệu mặc định được đề cập thường là tương quan Pearson , đây là thước đo được tiêu chuẩn hóa của cặp đôi, liên kết tuyến tính giữa hai biến phân phối liên tục. Một trong những lạm dụng phổ biến nhất của Pearson là báo cáo theo tỷ lệ phần trăm. Nó chắc chắn không phải là một tỷ lệ phần trăm. Các Pearson tương quan, r , dao động trong khoảng -1.0 và 1,0 trong đó 0 có nghĩa là không tuyến tính liên kết. Các vấn đề khác không được công nhận rộng rãi khi sử dụng tương quan Pearson làm mặc định là nó thực sự là một biện pháp tuyến tính khá nghiêm ngặt, không mạnh mẽ đòi hỏi phải thay đổi tỷ lệ giữa các khoảng thời gian (xem bài viết xuất sắc của Paul EmbrechtsTương quan và phụ thuộc trong quản lý rủi ro: Thuộc tính và cạm bẫy ở đây: https://people.math.ethz.ch/~embrecht/ftp/pit thác.pdf ).

Embrechts lưu ý rằng có nhiều giả định sai lầm về sự phụ thuộc bắt đầu bằng các giả định về cấu trúc cơ bản và hình dạng hình học của các mối quan hệ này:

Những ngụy biện này phát sinh từ một giả định ngây thơ rằng các thuộc tính phụ thuộc của thế giới elip cũng giữ trong thế giới phi elip

Embrechts chỉ ra các công thức như một loại số liệu phụ thuộc rộng hơn nhiều được sử dụng trong quản lý rủi ro và tài chính, trong đó tương quan Pearson chỉ là một loại.

Bộ phận Thống kê của Columbia đã dành năm học 2013-2014 tập trung vào việc phát triển những hiểu biết sâu sắc hơn về các cấu trúc phụ thuộc: ví dụ: tuyến tính, phi tuyến, đơn điệu, xếp hạng, tham số, không tham số, có khả năng rất phức tạp và có sự khác biệt lớn về tỷ lệ. Năm kết thúc với một hội thảo và hội thảo kéo dài 3 ngày, quy tụ hầu hết những người đóng góp hàng đầu trong lĩnh vực này ( http://datascience.columbia.edu/workshop-and-conference-nonparametric-measure-dependence-apr-28-may- 2 ).

Những người đóng góp này bao gồm anh em Reshef, hiện nổi tiếng với bài báo Khoa học năm 2011 Phát hiện các hiệp hội tiểu thuyết trong Tập dữ liệu lớn http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf rằng đã bị chỉ trích rộng rãi (xem AndrewGelman.com để có cái nhìn tổng quan tốt, được xuất bản đồng thời với sự kiện Columbia: http://andrewgelman.com/2014/03/14/maximal-inif-cffic ). Các Reshefs đã giải quyết tất cả những lời chỉ trích này trong bài trình bày của họ (có sẵn trên trang web của hội nghị Columbia), cũng như một thuật toán MIC hiệu quả hơn rất nhiều.

Nhiều nhà thống kê hàng đầu khác đã trình bày tại sự kiện này bao gồm Gabor Szekely, hiện tại NSF ở DC. Szekely đã phát triển mối tương quan khoảng cáchmột phần khoảng cách của mình . Deep Mukhopadhay, Temple U, trình bày Thuật toán thống kê thống nhất của mình - một khuôn khổ cho các thuật toán thống nhất của khoa học dữ liệu - dựa trên công việc được thực hiện với Eugene Franzen http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/ . Và nhiều người khác. Đối với tôi, một trong những chủ đề thú vị hơn là đòn bẩy rộng và sử dụng Tái tạo không gian hạt nhân Hilbert (RKHS) và hình vuông chi. Nếu có một cách tiếp cận phương thức cho các cấu trúc phụ thuộc tại hội nghị này, thì đó là RKHS.

Các sách giáo khoa thống kê giới thiệu điển hình là chiếu lệ trong điều trị phụ thuộc của nó, thường dựa vào các bài thuyết trình của cùng một tập hợp các hình ảnh của các mối quan hệ tròn hoặc parabol. Các văn bản phức tạp hơn sẽ đi sâu vào Bộ tứ của Anscombe , một hình ảnh của bốn bộ dữ liệu khác nhau sở hữu các thuộc tính thống kê đơn giản, tương tự nhưng cực kỳ khác nhau: https://en.wikipedia.org/wiki/Anscombe%27s_quartet

Một trong những điều tuyệt vời của hội thảo này là vô số các cấu trúc và mối quan hệ phụ thuộc được hình dung và trình bày, vượt xa các tiêu chuẩn, điều trị chiếu lệ. Chẳng hạn, Reshefs có hàng tá đồ họa hình thu nhỏ chỉ đại diện cho một mẫu phi tuyến có thể. Deep Mukhopadhay có hình ảnh tuyệt đẹp về các mối quan hệ cực kỳ phức tạp trông giống như một cảnh quan vệ tinh của dãy Hy Mã Lạp Sơn. Số liệu thống kê và tác giả sách giáo khoa khoa học dữ liệu cần lưu ý.

Ra khỏi hội nghị Columbia với sự phát triển và hình dung của các cấu trúc phụ thuộc cặp đôi rất phức tạp này, tôi đã đặt câu hỏi về khả năng của các mô hình thống kê đa biến để nắm bắt các phi tuyến và độ phức tạp này.


2
Tôi vừa bắt gặp cuộc thảo luận tuyệt vời và đầy đủ này về các biện pháp liên kết trên Quora: quora.com/ Kẻ
Mike Hunter

6

Nó phụ thuộc vào định nghĩa chính xác của bạn về "tương quan", nhưng không quá khó để xây dựng các trường hợp thoái hóa. "Độc lập" có thể có nghĩa là "không có sức mạnh dự đoán, bao giờ" cũng giống như "tương quan tuyến tính".

y= =tội(2000x)x[0,1)


3

Về cơ bản, sự phụ thuộc của Y vào X có nghĩa là sự phân phối các giá trị của Y phụ thuộc vào một số cách của giá trị của X. Sự phụ thuộc đó có thể phụ thuộc vào giá trị trung bình của Y (trường hợp thông thường được trình bày trong hầu hết các câu trả lời) hoặc bất kỳ đặc điểm nào khác của Y.

Ví dụ: đặt X là 0 hoặc 1. Nếu X = 0 thì đặt Y là 0, nếu X = 1 đặt Y là -1, 0 hoặc 1 (cùng xác suất). X và Y không tương quan. Về trung bình, Y không phụ thuộc vào X vì giá trị nào là X, giá trị trung bình của Y là 0. Nhưng rõ ràng sự phân phối các giá trị của Y phụ thuộc vào giá trị X. Trong trường hợp này, ví dụ, phương sai của Y là 0 khi X = 0 và> 0 khi X = 1, do đó, ít nhất, có một sự phụ thuộc vào phương sai, tức là có sự phụ thuộc.

Vì vậy, tương quan tuyến tính chỉ cho thấy một loại phụ thuộc vào giá trị trung bình (phụ thuộc tuyến tính), đến lượt nó chỉ là một trường hợp đặc biệt của sự phụ thuộc.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.