Hệ số tương quan của Pearson mạnh mẽ như thế nào đối với các vi phạm về tính quy tắc?


20

Dữ liệu cho một số loại biến nhất định có xu hướng không bình thường khi được đo trong các quần thể cụ thể (ví dụ mức độ trầm cảm trong dân số của những người mắc chứng Rối loạn trầm cảm chính). Cho rằng Pearson giả định tính quy phạm, thống kê kiểm tra mạnh mẽ như thế nào trong các điều kiện của tính phi quy tắc?

Tôi có một số biến mà tôi muốn các hệ số tương quan, nhưng độ lệch Z đối với một số biến đó có ý nghĩa ở p <0,001 (và đó là một mẫu tương đối nhỏ). Tôi đã thử một số biến đổi, nhưng những cải tiến trong bản phân phối chỉ ở mức tối thiểu.

Tôi sẽ phải gắn bó với các phân tích phi tham số? Và không chỉ cho các mối tương quan, mà còn cho các loại phân tích khác?


Đợi đã, hệ số tương quan của Pearson giả định tính bình thường? Tôi không nghĩ là có, và tôi đã sử dụng nó trên dữ liệu không bình thường. Nó chỉ không mạnh mẽ đối với một số điều xảy ra thường xuyên hơn trong một số tình huống không bình thường, nhưng có rất nhiều tình huống không bình thường mà tôi thấy không có vấn đề gì với việc sử dụng hệ số tương quan của Pearson.
Douglas Zare

1
Mối tương quan đó của Pearson giả định tính quy tắc là điều mà nhiều văn bản thống kê yêu cầu. Tôi đã nghe nói rằng sự bình thường là một giả định không cần thiết cho r Pearson. Khi tôi thực hiện các phân tích, cả Pearson và Spearman đều cho kết quả tương đối giống nhau.
Archaeopercx

Hệ số tương quan xếp hạng của Spearman là hệ số tương quan của Pearson được áp dụng cho các bảng xếp hạng không bình thường. Tôi vẫn không biết bạn hiểu Pearson yêu cầu sự bình thường theo nghĩa nào. Có lẽ bạn có thể nói thêm một vài điều trong trường hợp bạn đang sử dụng nó trên một bản phân phối bình thường đa biến.
Douglas Zare

Tôi chỉ đang sử dụng nó cho các tương quan bivariate đơn giản. Tôi không chắc tại sao lại cho rằng tính bình thường là bắt buộc. Các văn bản thống kê mà tôi đã đọc luôn liệt kê tính quy tắc như một giả định về mối tương quan của Pearson và khuyên nên sử dụng Spearman cho các điều kiện trong đó tính phi quy tắc.
Archaeopercx

Câu trả lời:


20

Câu trả lời ngắn gọn: Rất không mạnh mẽ. Mối tương quan là thước đo của sự phụ thuộc tuyến tính và khi một biến không thể được viết dưới dạng hàm tuyến tính của biến khác (và vẫn có phân phối biên đã cho), bạn không thể có tương quan hoàn hảo (dương hoặc âm). Trong thực tế, các giá trị tương quan có thể có thể bị hạn chế nghiêm trọng.

Vấn đề là trong khi tương quan dân số là luôn luôn giữa 1 , phạm vi có thể đạt được chính xác phụ thuộc nhiều vào sự phân bố biên. Một bằng chứng nhanh chóng và trình diễn:11

Phạm vi đạt được của mối tương quan

Nếu có chức năng phân phối H và chức năng phân phối biên FG , có tồn tại một số giới hạn trên và dưới khá tốt đẹp cho H , H - ( x , y ) H ( x , y ) H + ( x , y ) , được gọi là giới hạn Fréchet. Đây là H - ( x , y )(X,Y)HFGH

H(x,y)H(x,y)H+(x,y),
(Cố gắng chứng minh điều đó; nó không khó lắm.)
H(x,y)=max(F(x)+G(y)1,0)H+(x,y)=min(F(x),G(y)).

Các giới hạn là chính chức năng phân phối. Để có phân phối đồng đều. Giới hạn trên là hàm phân phối của ( X , Y ) = ( F - ( U ) , G - ( U ) ) và giới hạn dưới là hàm phân phối của ( F - ( - U ) , G - ( 1 - U ) ) .U(X,Y)=(F(U),G(U))(F(U),G(1U))

Bây giờ, sử dụng biến thể này trên công thức cho các hiệp phương sai, chúng ta thấy rằng chúng tôi có được tối đa và tối thiểu tương quan khi H bằng H + H - , tương ứng, ví dụ, khi Y là một (tích cực hoặc tiêu cực, tương ứng) chức năng đơn điệu của X .

Cov(X,Y)=H(x,y)F(x)G(y)dxdy,
HH+HYX

Ví dụ

Dưới đây là một vài ví dụ (không có bằng chứng):

  1. Khi Y được phân phối bình thường, chúng ta có được tối đa và tối thiểu khi ( X , Y ) có phân phối chuẩn hai biến thông thường nơi Y được viết dưới dạng một hàm tuyến tính của X . Nghĩa là, chúng tôi nhận được tối đa đối với Y = μ Y + σ Y X - μ XXY(X,Y)YX Ở đây giới hạn là (tất nhiên)-11, bất kể phương tiện và phương saiXYcó là gì.

    Y=μY+σYXμXσX.
    11XY
  2. XYYY=abXabYXY[1/e,1][0.37,1]

  3. XY

    ±1e10.76.

Lưu ý rằng tất cả các giới hạn là cho mối tương quan dân số . Tương quan mẫu có thể dễ dàng mở rộng ra ngoài giới hạn, đặc biệt đối với các mẫu nhỏ (ví dụ nhanh: cỡ mẫu là 2).

Ước tính giới hạn tương quan

Thật ra khá dễ dàng để ước tính giới hạn trên và dưới về mối tương quan nếu bạn có thể mô phỏng từ các phân phối biên. Đối với ví dụ cuối cùng ở trên, chúng ta có thể sử dụng mã R này:

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

Nếu chúng ta chỉ có dữ liệu thực tế và không biết phân phối biên, chúng ta vẫn có thể sử dụng phương pháp trên. Đây không phải là vấn đề mà các biến phụ thuộc miễn là các cặp quan sát phụ thuộc. Nhưng nó giúp có nhiều cặp quan sát.

Chuyển đổi dữ liệu

YX

Những gì bạn thực sự làm ở đây là tạo ra một thước đo mới về sự phụ thuộc không phụ thuộc vào các phân phối biên; tức là, bạn đang tạo ra một biện pháp phụ thuộc dựa trên copula . Hiện đã có nhiều biện pháp như vậy, Spearman  ρKendall  τ được sự nổi tiếng nhất. (Nếu bạn thực sự quan tâm đến các khái niệm phụ thuộc, thì không nên xem xét các công thức.)

Cuối cùng

Một số suy nghĩ và lời khuyên cuối cùng: Chỉ cần nhìn vào mối tương quan có một vấn đề lớn: Nó khiến bạn ngừng suy nghĩ. Nhìn vào các mảnh đất phân tán, mặt khác, thường làm cho bạn bắt đầu suy nghĩ. Do đó, lời khuyên chính của tôi là kiểm tra các biểu đồ phân tán và cố gắng mô hình hóa sự phụ thuộc một cách rõ ràng.

Điều đó nói rằng, nếu bạn cần một đơn giản tương quan giống như biện pháp, tôi sẽ chỉ cần sử dụng Spearman  ρ (và khoảng tin cậy liên quan và kiểm tra). Phạm vi của nó không bị hạn chế. Nhưng phải rất ý thức về sự phụ thuộc không đơn điệu. Các bài viết trên Wikipedia về mối tương quan có một vài lô đẹp minh họa vấn đề tiềm ẩn.


1
+1 Đóng góp rất tốt này giải quyết rõ ràng một số vấn đề định kỳ liên quan đến tương quan. Tôi đặc biệt đánh giá cao những nhận xét trong đoạn kết luận đầu tiên về việc dừng / bắt đầu suy nghĩ.
whuber

Sự không mạnh mẽ sẽ vẫn còn bất thường? Nếu vậy, wiki có sai khi nói rằng "[Phân phối t của Sinh viên cho một phép biến đổi đơn giản của r] cũng giữ khoảng ngay cả khi các giá trị quan sát là không bình thường, với kích thước mẫu không phải là rất nhỏ"?
tối đa

5

Sự phân phối của các biến này trông như thế nào (ngoài việc bị sai lệch)? Nếu sự không bình thường duy nhất là độ lệch, thì một sự chuyển đổi của một số loại phải giúp đỡ. Nhưng nếu các biến này có nhiều biến đổi, thì không có biến đổi nào sẽ đưa chúng trở thành bình thường. Nếu biến không liên tục, điều tương tự là đúng.

Làm thế nào mạnh mẽ là mối tương quan với vi phạm? Hãy nhìn vào Bộ tứ Anscombe. Nó minh họa một số vấn đề khá tốt.

Đối với các loại phân tích khác, nó phụ thuộc vào phân tích. Ví dụ, nếu các biến bị lệch là các biến độc lập trong hồi quy, có thể không có vấn đề gì cả - bạn cần xem xét các phần dư.


1
Một số biến cũng có vấn đề với kurtosis, nhưng độ lệch là vấn đề lớn nhất. Tôi đã thử chuyển đổi căn bậc hai và ghi nhật ký các biến số vấn đề, nhưng chúng không cải thiện nhiều. Trong thực tế, các bản phân phối dường như trông gần như giống hệt nhau, nhưng với số điểm lớn hơn.
Archaeopercx

1
Điều đó có vẻ rất kỳ quặc. Bạn có thể đăng trung bình, trung bình, độ lệch, kurtosis của biến trong câu hỏi? Hoặc (thậm chí tốt hơn) một âm mưu mật độ của nó?
Peter Flom - Tái lập Monica

6
Bất kể việc phân phối (X, Y) là chia nhỏ bình thường hay không, tương quan Pearson là thước đo mức độ tuyến tính. Phân phối xác suất cho ước tính mẫu sẽ phụ thuộc vào tính chuẩn.
Michael R. Chernick

3
Những biến đó không phải là rất sai lệch. Bạn có thể để chúng như vậy.
Peter Flom - Tái lập Monica

3
Đừng lo lắng về ý nghĩa ở đây. Thông thường, xiên và kurtosis <-2 hoặc> 2 được coi là có thể cần chuyển đổi. Tốt hơn nữa là nhìn vào các biểu đồ, ví dụ như biểu đồ bình thường định lượng và biểu đồ mật độ w / kernel để xem điều gì đang xảy ra.
Peter Flom - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.