Tại sao một mối tương quan Pearson của các cấp bậc có hiệu lực mặc dù giả định quy tắc?


9

Tôi hiện đang đọc các giả định về tương quan Pearson. Một giả định quan trọng cho thử nghiệm t tiếp theo dường như là cả hai biến đều đến từ các bản phân phối bình thường; nếu họ không, thì việc sử dụng các biện pháp thay thế như Spearman rho được ủng hộ. Tương quan Spearman được tính như tương quan Pearson, chỉ sử dụng các cấp bậc của X và Y thay vì chính X và Y, đúng không?

Câu hỏi của tôi là: Nếu các biến đầu vào thành tương quan Pearson cần được phân phối bình thường, tại sao phép tính tương quan Spearman lại hợp lệ mặc dù các biến đầu vào được xếp hạng? Thứ hạng của tôi chắc chắn không đến từ các bản phân phối bình thường ...

Lời giải thích duy nhất tôi đã đưa ra cho đến nay là tầm quan trọng của rho có thể được kiểm tra khác với thử nghiệm t tương quan Pearson (theo cách không yêu cầu tính quy phạm), nhưng cho đến nay tôi không tìm thấy công thức nào. Tuy nhiên, khi tôi chạy một vài ví dụ, các giá trị p cho rho và cho phép kiểm tra t về tương quan Pearson của các cấp bậc luôn khớp, lưu cho vài chữ số cuối. Đối với tôi điều này không giống như một thủ tục đột phá.

Bất kỳ lời giải thích và ý tưởng bạn có thể sẽ được đánh giá cao!

Câu trả lời:


7

Bình thường là không cần thiết để tính toán một mối tương quan Pearson; chỉ là một số hình thức suy luận về số lượng dân số tương ứng dựa trên các giả định thông thường (các bài kiểm tra giả thuyết và giả thuyết).

Nếu bạn không có tính quy tắc, các thuộc tính ngụ ý của hình thức suy luận cụ thể đó sẽ không được giữ.

Trong trường hợp tương quan Spearman, bạn không có tính quy tắc, nhưng điều đó tốt bởi vì các tính toán suy luận cho tương quan Spearman (chẳng hạn như kiểm tra giả thuyết) không dựa trên giả định quy tắc.

Chúng có nguồn gốc dựa trên việc là một tập hợp các cấp bậc được ghép nối từ một phân phối hai biến liên tục; trong trường hợp này, kiểm tra giả thuyết sử dụng phân phối hoán vị của thống kê kiểm tra dựa trên các cấp bậc.

Khi các giả định thông thường cho suy luận với tổ chức tương quan Pearson (tính chuẩn tắc bivariate), mối tương quan Spearman thường rất gần (mặc dù trung bình gần hơn một chút so với 0).

(Vì vậy, khi bạn có thể sử dụng Pearson, Spearman thường hoạt động khá tốt. Nếu bạn gần như chia nhỏ dữ liệu bình thường ngoài một số ô nhiễm với một số quy trình khác (gây ra ngoại lệ), Spearman sẽ là cách mạnh mẽ hơn để ước tính mối tương quan trong phân phối không nhiễm bẩn.)


Cảm ơn bạn, tham chiếu đến phân phối hoán vị là hữu ích!
GST95

"Spearman sẽ là một cách mạnh mẽ hơn để ước tính mối tương quan" Đối với nitpick, Spearman sẽ ước tính liên kết , KHÔNG tương quan tuyến tính.
Landroni

1
@landroni Nếu tôi nói về Spearman nói chung, bạn mô tả chính xác những gì Spearman làm - nhưng trong câu đó tôi nói rõ ràng về việc so sánh hai ước tính về tương quan dân số bị ô nhiễm, và ý tôi là tôi nói theo nghĩa đen. Hãy tưởng tượng một phép chia đôi bình thường với tương quan và sau đó thêm một ngoại lệ thực sự cực đoan. Nếu tôi muốn ước tính trong tình huống đó, Spearman là một công cụ ước tính mạnh mẽ hơn của so với tương quan Pearson. ρρρρ
Glen_b -Reinstate Monica

1
@landroni ... Một tình huống như vậy có thể xảy ra khi bạn có quy trình chính được xử lý độc đáo và một số quy trình gây ô nhiễm có thể rất cực đoan nhưng chỉ xảy ra đôi khi. Nếu bạn quan tâm đến việc ước tính mối tương quan của quá trình không bị nhiễm bẩn, thì mối tương quan Pearson rất dễ bị nhiễm bẩn, ở mức độ lớn hơn nhiều so với Spearman.
Glen_b -Reinstate Monica

2

Khi tôi chạy một vài ví dụ, các giá trị p cho rho và cho phép kiểm tra t về tương quan Pearson của các cấp bậc luôn khớp, lưu cho vài chữ số cuối

Chà, bạn đã chạy sai ví dụ rồi!

a = c(1,2,3,4,5,6,7,8,9)
b = c(1,2,3,4,5,6,7,8,90)
cor.test(a,b,method='pearson')

    Pearson's product-moment correlation

data:  a and b
t = 2.0528, df = 7, p-value = 0.0792
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.08621009  0.90762506
sample estimates:
      cor 
0.6130088 

cor.test(a,b,method='spearman')

    Spearman's rank correlation rho

data:  a and b
S = 0, p-value = 5.511e-06
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho 
  1 

Các vectơ abcó một mối tương quan tốt, nhưng khác xa so với tuyến tính hoàn hảo (Pearson). Tuy nhiên, họ có mối tương quan xếp hạng hoàn hảo . Xem - với Spearman's , trong trường hợp này, vấn đề không phải là nếu chữ số cuối cùng là 8.1, 9, 90 hoặc 9000 (hãy thử!), Nó chỉ quan trọng nếu nó lớn hơn 8 . Đó là những gì một thứ hạng tương quan khác biệt tạo ra. ρb

Ngược lại, trong khi abcó tương quan xếp hạng hoàn hảo, hệ số tương quan Pearson của chúng nhỏ hơn 1. Điều này cho thấy tương quan Pearson không phản ánh thứ hạng.
Một tương quan Pearson phản ánh một hàm tuyến tính, một tương quan xếp hạng đơn giản là một hàm đơn điệu. Trong trường hợp dữ liệu bình thường, cả hai sẽ rất giống nhau và tôi nghi ngờ đây là lý do tại sao dữ liệu của bạn không cho thấy sự khác biệt lớn giữa Spearman và Pearson.

Đối với một ví dụ thực tế, xem xét những điều sau đây; bạn muốn xem người cao cân nặng hơn. Vâng, đó là một câu hỏi ngớ ngẩn ... nhưng hãy cho rằng đây là điều bạn quan tâm. Bây giờ, khối lượng không quy mô tuyến tính với trọng lượng, vì người cao cũng rộng hơn người nhỏ; vì vậy trọng lượng không phải là một hàm tuyến tính của chiều cao. Ai đó cao hơn bạn 10% (trung bình) nặng hơn 10%. Đây là lý do tại sao chỉ số cơ thể / khối lượng sử dụng khối lập phương trong mẫu số.
Do đó, bạn sẽ giả sử một mối tương quan tuyến tính để phản ánh không chính xác mối quan hệ chiều cao / cân nặng. Ngược lại, mối tương quan xếp hạng không nhạy cảm với các định luật khó chịu của vật lý và sinh học trong trường hợp này; nó không phản ánh nếu mọi người phát triển nặng hơn theo chiều cao khi họ tăng chiều cao, nó chỉ phản ánh nếu những người cao hơn (thứ hạng cao hơn trên một thang đo) nặng hơn (thứ hạng cao hơn trên thang đo khác).

Một ví dụ điển hình hơn có thể là bảng xếp hạng câu hỏi giống như Likert, chẳng hạn như mọi người đánh giá thứ gì đó là "hoàn hảo / tốt / đàng hoàng / tầm thường / xấu / khủng khiếp". "Hoàn hảo" khác xa với "đàng hoàng" như "đàng hoàng" là từ "xấu" trên thang đo , nhưng chúng ta có thể thực sự nói rằng khoảng cách giữa hai người là như nhau không? Một mối tương quan tuyến tính không nhất thiết là thích hợp. Thứ hạng tương quan là tự nhiên hơn.

Để giải quyết trực tiếp hơn câu hỏi của bạn: không, giá trị p cho tương quan Pearson và Spearman không được tính khác nhau . Phần lớn là khác nhau về cả hai, về mặt khái niệm cũng như số lượng, nhưng nếu thống kê kiểm tra là tương đương, giá trị p sẽ tương đương.

Về câu hỏi về một giả định về tính quy tắc trong tương quan Pearson, xem điều này .
Tổng quát hơn, những người khác đã xây dựng tốt hơn nhiều so với tôi có thể liên quan đến chủ đề tương quan tham số và không tham số (cũng xem ở đây ), và điều này có nghĩa gì về các giả định phân phối.


Cảm ơn bạn! Lần tới tôi chắc chắn sẽ thử nghiệm với các ví dụ nhiều hơn. :)
GST95

1
Không, chờ đã, thực ra đó không phải là câu hỏi của tôi. Tôi đã không so sánh phương thức = "pearson" với phiên bản phương thức = "spearman" của x và y. Tôi so sánh cor.test(x, y, method = "spearman")với cor.test(rank(x), rank(y), method = "pearson"). Các ước tính này sẽ giống hệt nhau cho dù người ta chọn dữ liệu nào. Dù sao cũng cảm ơn bạn! :)
GST95

@ GST95, mối tương quan của Spearman chính xác là mối tương quan của Pearson được thực hiện trên dữ liệu chuyển đổi thứ hạng. Hai "phương thức" của bạn thực sự chính xác là cùng một phương thức.
Dennis

@Dennis, chính xác, tôi đã không so sánh các hệ số rho (giống hệt nhau) nhưng các giá trị p để xem liệu cả hai đều thu được bằng phép thử t.
GST95
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.