Câu trả lời ngắn gọn: Rất không mạnh mẽ. Mối tương quan là thước đo của sự phụ thuộc tuyến tính và khi một biến không thể được viết dưới dạng hàm tuyến tính của biến khác (và vẫn có phân phối biên đã cho), bạn không thể có tương quan hoàn hảo (dương hoặc âm). Trong thực tế, các giá trị tương quan có thể có thể bị hạn chế nghiêm trọng.
Vấn đề là trong khi tương quan dân số là luôn luôn giữa và 1 , phạm vi có thể đạt được chính xác phụ thuộc nhiều vào sự phân bố biên. Một bằng chứng nhanh chóng và trình diễn:−11
Phạm vi đạt được của mối tương quan
Nếu có chức năng phân phối H và chức năng phân phối biên F và G , có tồn tại một số giới hạn trên và dưới khá tốt đẹp cho H ,
H - ( x , y ) ≤ H ( x , y ) ≤ H + ( x , y ) ,
được gọi là giới hạn Fréchet. Đây là
H - ( x , y )(X,Y)HFGH
H−(x,y)≤H(x,y)≤H+(x,y),
(Cố gắng chứng minh điều đó; nó không khó lắm.)
H−(x,y)H+(x,y)=max(F(x)+G(y)−1,0)=min(F(x),G(y)).
Các giới hạn là chính chức năng phân phối. Để có phân phối đồng đều. Giới hạn trên là hàm phân phối của ( X , Y ) = ( F - ( U ) , G - ( U ) ) và giới hạn dưới là hàm phân phối của ( F - ( - U ) , G - ( 1 - U ) ) .U(X,Y)=(F−(U),G−(U))(F−(−U),G−(1−U))
Bây giờ, sử dụng biến thể này trên công thức cho các hiệp phương sai,
chúng ta thấy rằng chúng tôi có được tối đa và tối thiểu tương quan khi H bằng H + và H - , tương ứng, ví dụ, khi Y là một (tích cực hoặc tiêu cực, tương ứng) chức năng đơn điệu của X .
Cov(X,Y)=∬H(x,y)−F(x)G(y)dxdy,
HH+H−YX
Ví dụ
Dưới đây là một vài ví dụ (không có bằng chứng):
Khi và Y được phân phối bình thường, chúng ta có được tối đa và tối thiểu khi ( X , Y ) có phân phối chuẩn hai biến thông thường nơi Y được viết dưới dạng một hàm tuyến tính của X . Nghĩa là, chúng tôi nhận được tối đa đối với
Y = μ Y + σ Y X - μ XXY(X,Y)YX
Ở đây giới hạn là (tất nhiên)-1và1, bất kể phương tiện và phương saiXvàYcó là gì.
Y=μY+σYX−μXσX.
−11XY
XYYY=a−bXabYXY[−1/e,1]≈[−0.37,1]
XY
±1e−1−−−−√≈0.76.
Lưu ý rằng tất cả các giới hạn là cho mối tương quan dân số . Tương quan mẫu có thể dễ dàng mở rộng ra ngoài giới hạn, đặc biệt đối với các mẫu nhỏ (ví dụ nhanh: cỡ mẫu là 2).
Ước tính giới hạn tương quan
Thật ra khá dễ dàng để ước tính giới hạn trên và dưới về mối tương quan nếu bạn có thể mô phỏng từ các phân phối biên. Đối với ví dụ cuối cùng ở trên, chúng ta có thể sử dụng mã R này:
> n = 10^5 # Sample size: 100,000 observations
> x = rnorm(n) # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769
Nếu chúng ta chỉ có dữ liệu thực tế và không biết phân phối biên, chúng ta vẫn có thể sử dụng phương pháp trên. Đây không phải là vấn đề mà các biến phụ thuộc miễn là các cặp quan sát phụ thuộc. Nhưng nó giúp có nhiều cặp quan sát.
Chuyển đổi dữ liệu
YX
Những gì bạn thực sự làm ở đây là tạo ra một thước đo mới về sự phụ thuộc không phụ thuộc vào các phân phối biên; tức là, bạn đang tạo ra một biện pháp phụ thuộc dựa trên copula . Hiện đã có nhiều biện pháp như vậy, Spearman ρ và Kendall τ được sự nổi tiếng nhất. (Nếu bạn thực sự quan tâm đến các khái niệm phụ thuộc, thì không nên xem xét các công thức.)
Cuối cùng
Một số suy nghĩ và lời khuyên cuối cùng: Chỉ cần nhìn vào mối tương quan có một vấn đề lớn: Nó khiến bạn ngừng suy nghĩ. Nhìn vào các mảnh đất phân tán, mặt khác, thường làm cho bạn bắt đầu suy nghĩ. Do đó, lời khuyên chính của tôi là kiểm tra các biểu đồ phân tán và cố gắng mô hình hóa sự phụ thuộc một cách rõ ràng.
Điều đó nói rằng, nếu bạn cần một đơn giản tương quan giống như biện pháp, tôi sẽ chỉ cần sử dụng Spearman ρ (và khoảng tin cậy liên quan và kiểm tra). Phạm vi của nó không bị hạn chế. Nhưng phải rất ý thức về sự phụ thuộc không đơn điệu. Các bài viết trên Wikipedia về mối tương quan có một vài lô đẹp minh họa vấn đề tiềm ẩn.