Làm thế nào để lựa chọn giữa tương quan Pearson và Spearman?


119

Làm cách nào để biết khi nào nên chọn giữa Spearman's và Pearson's ? Biến của tôi bao gồm sự hài lòng và điểm số được diễn giải bằng cách sử dụng tổng điểm. Tuy nhiên, những điểm số này cũng có thể được xếp hạng.ρr


2
xem thêm câu hỏi này trên pearson so với spearman để biết số liệu thống kê
Jeromy Anglim

1
trong trường hợp dữ liệu bình thường, sản xuất pearson. trong trường hợp dữ liệu không bình thường, sản xuất spearman.

Câu trả lời:


137

Nếu bạn muốn khám phá dữ liệu của mình, tốt nhất là tính toán cả hai, vì mối quan hệ giữa tương quan Spearman (S) và Pearson (P) sẽ cung cấp một số thông tin. Tóm lại, S được tính trên các cấp bậc và do đó mô tả các mối quan hệ đơn điệu trong khi P là các giá trị thực và mô tả các mối quan hệ tuyến tính.

Ví dụ: nếu bạn đặt:

x=(1:100);  
y=exp(x);                         % then,
corr(x,y,'type','Spearman');      % will equal 1, and 
corr(x,y,'type','Pearson');       % will be about equal to 0.25

Điều này là do tăng đơn điệu với nên tương quan Spearman là hoàn hảo, nhưng không tuyến tính, do đó tương quan Pearson là không hoàn hảo. yx

corr(x,log(y),'type','Pearson');  % will equal 1

Làm cả hai đều thú vị bởi vì nếu bạn có S> P, điều đó có nghĩa là bạn có một mối tương quan đơn điệu nhưng không tuyến tính. Vì thật tốt khi có tính tuyến tính trong thống kê (dễ dàng hơn), bạn có thể thử áp dụng một phép biến đổi trên (một bản ghi như vậy).y

Tôi hy vọng điều này sẽ giúp làm cho sự khác biệt giữa các loại tương quan dễ hiểu hơn.


2
Tôi đoán rằng đây là một từ được đưa ra từ những gì bạn đã nói, nhưng tôi chỉ muốn xác nhận rằng S <P không thể xảy ra.
Jonathan Thiele

9
@JonathanThiele hoàn toàn có thể có S <P. Ví dụ: bộ II và IV từ Bộ tứ của Anscombe thể hiện hành vi này. Ngoài ra, hãy xem câu hỏi này: stats.stackexchange.com/questions/27127/ từ
nguyên tử

1
@atomicules Cảm ơn thông tin. Tôi vừa kiểm tra các mối tương quan trong Bộ tứ của Anscombe và liên kết của bạn rất hữu ích.
Jonathan Thiele

Làm thế nào bạn có thể bao gồm các mối tương quan Pearson và Spearson trong một bản trình bày chính tả? - - Tôi đang nghĩ ở đây trường hợp stackoverflow.com/a/40523080/54964 - - Tôi có một vấn đề đa yếu tố nên tôi nghĩ Spearson sẽ hợp lệ để bao gồm và tôi không thể chỉ đi với Pearson.
Léo Léopold Hertz

Đây là cách tiếp cận tôi thường thực hiện, vì nó có thêm lợi ích của việc vượt qua sự biện minh cần thiết của một thử nghiệm so với thử nghiệm khác, đặc biệt là khi thử nghiệm mối tương quan giữa nhiều biến số. Thay vì kiểm tra từng biến để xem liệu các giả định về tương quan Pearson hay Spearman có được đáp ứng hay không, chỉ cần chạy cả hai thứ. Trong nhiều ứng dụng thực tế, chúng sẽ đưa ra các biện pháp quan trọng tương tự về sự liên kết, vì vậy bạn chỉ cần tìm hiểu sâu hơn về các trường hợp tương đối mà kết quả của chúng khác nhau rất nhiều, và đó là những trường hợp thú vị để tìm hiểu thêm về dù sao.
Hạt nhân Wang

50

Câu trả lời ngắn nhất và chủ yếu là:

Pearson điểm chuẩn mối quan hệ tuyến tính , Spearman điểm chuẩn mối quan hệ đơn điệu (một vài trường hợp phổ biến hơn, nhưng đối với một số sự đánh đổi quyền lực).

Vì vậy, nếu bạn giả sử / nghĩ rằng mối quan hệ là tuyến tính (hoặc, như một trường hợp đặc biệt, thì đó là hai biện pháp của cùng một điều, vì vậy mối quan hệ là ) và tình huống không quá mệt mỏi (kiểm tra các câu trả lời khác để biết chi tiết), đi với Pearson. Nếu không thì sử dụng Spearman.y=1x+0


35

Điều này thường xảy ra trong thống kê: có nhiều phương pháp có thể được áp dụng trong tình huống của bạn và bạn không biết nên chọn phương pháp nào. Bạn nên căn cứ vào quyết định của mình những ưu và nhược điểm của các phương pháp đang được xem xét và các chi tiết cụ thể của vấn đề của bạn, nhưng ngay cả khi đó quyết định thường chủ quan không có câu trả lời "đúng" đã được thống nhất. Thông thường nên thử nhiều phương pháp có vẻ hợp lý và sự kiên nhẫn của bạn sẽ cho phép và xem phương pháp nào mang lại cho bạn kết quả tốt nhất cuối cùng.

Sự khác biệt giữa tương quan Pearson và tương quan Spearman là Pearson thích hợp nhất cho các phép đo được lấy từ thang đo khoảng , trong khi Spearman thích hợp hơn cho các phép đo lấy từ thang đo thứ tự . Ví dụ về thang đo khoảng bao gồm "nhiệt độ tính bằng Farenheit" và "chiều dài tính bằng inch", trong đó các đơn vị riêng lẻ (1 độ F, 1 in) có ý nghĩa. Những thứ như "điểm hài lòng" có xu hướng thuộc loại thứ tự vì trong khi rõ ràng "5 hạnh phúc" hạnh phúc hơn "3 hạnh phúc", không rõ liệu bạn có thể đưa ra một cách giải thích có ý nghĩa về "1 đơn vị hạnh phúc" hay không. Nhưng khi bạn thêm nhiều phép đo của loại thứ tự, đó là những gì bạn có trong trường hợp của bạn, bạn kết thúc bằng một phép đo thực sự không phải là thứ tự hay khoảng cách, và rất khó để giải thích.

Tôi khuyên bạn nên chuyển đổi điểm hài lòng của mình thành điểm số lượng tử và sau đó làm việc với tổng của những điểm đó, vì điều này sẽ cung cấp cho bạn dữ liệu dễ hiểu hơn một chút để giải thích. Nhưng ngay cả trong trường hợp này cũng không rõ liệu Pearson hay Spearman sẽ phù hợp hơn.


2
Làm thế nào về ví dụ ... e ngại giao tiếp? Một sự e ngại cao không có sự khác biệt nhất định với một sự e ngại rất cao, phải không? Nhưng tôi đã thấy rằng biến này có tương quan với các biến khác khi sử dụng Pearson's r. Điều đó hoàn toàn ổn chứ? Cảm ơn bạn!

28

Tôi chạy vào một trường hợp góc thú vị ngày hôm nay.

Nếu chúng ta đang xem xét số lượng mẫu rất nhỏ, sự khác biệt giữa Spearman và Pearson có thể rất ấn tượng.

Trong trường hợp dưới đây, hai phương pháp báo cáo một mối tương quan hoàn toàn trái ngược .

nhập mô tả hình ảnh ở đây

Một số quy tắc nhanh để quyết định Spearman so với Pearson:

  • Các giả định của Pearsons là phương sai và tuyến tính không đổi (hoặc một cái gì đó khá gần với điều đó), và nếu những điều này không được đáp ứng, có thể đáng để thử Spearmans.
  • Ví dụ trên là một trường hợp góc chỉ bật lên nếu có một số ít (<5) datapoint. Nếu có> 100 điểm dữ liệu và dữ liệu là tuyến tính hoặc gần với nó, thì Pearson sẽ rất giống với Spearman.
  • Nếu bạn cảm thấy rằng hồi quy tuyến tính là một phương pháp phù hợp để phân tích dữ liệu của bạn, thì đầu ra của Pearsons sẽ khớp với dấu hiệu và độ lớn của độ dốc hồi quy tuyến tính (nếu các biến được tiêu chuẩn hóa).
  • Nếu dữ liệu của bạn có một số thành phần phi tuyến tính mà hồi quy tuyến tính sẽ không nhận được, thì trước tiên hãy thử chuyển thẳng dữ liệu thành dạng tuyến tính bằng cách áp dụng một biến đổi (có thể là nhật ký e). Nếu điều đó không hiệu quả, thì Spearman có thể phù hợp.
  • Tôi luôn thử Pearson trước, và nếu nó không hoạt động, thì tôi thử Spearman.
  • Bạn có thể thêm bất kỳ quy tắc nào của ngón tay cái hoặc sửa những cái tôi vừa suy luận không? Tôi đã đặt câu hỏi này thành một Wiki cộng đồng để bạn có thể làm như vậy.

ps Đây là mã R để tái tạo biểu đồ trên:

# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3,   -2.5,+0.6)

plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")

spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
    c("Red line: regression.",
    sprintf("Spearman: %.5f",spearman),
    sprintf("Pearson:   +%.5f",pearson)
))

7

Trong khi đồng ý với câu trả lời charles, tôi sẽ đề nghị (ở mức độ thực tế nghiêm ngặt) rằng bạn tính cả hai hệ số và xem xét sự khác biệt. Trong nhiều trường hợp, chúng sẽ giống hệt nhau, vì vậy bạn không cần phải lo lắng.

Tuy nhiên, nếu chúng khác nhau thì bạn cần xem xét liệu bạn có đáp ứng các giả định của Pearsons (phương sai và tuyến tính không đổi) hay không và nếu chúng không được đáp ứng, có lẽ bạn nên sử dụng Spearmans.


3
Là một người học máy, tôi chắc chắn không phải là một vị thánh liên quan đến tính chính xác của thống kê, nhưng kiểm tra các giả định SAU khi thực hiện bài kiểm tra có vẻ như dị giáo đối với tôi.
steffen

7
@steffen Tôi nghĩ nó ổn. Một giả định của hồi quy là phần dư được phân phối bình thường. Làm thế nào bạn sẽ kiểm tra điều đó trước khi chạy hồi quy?
Glen

1
@Glen: Trong trường hợp này tôi không thể. Nhưng khi tôi so sánh chất lượng của các mô hình khác nhau, tôi thường thích kiểm tra giả định (ví dụ: phân phối bình thường) trước khi thực hiện thử nghiệm để giảm xu hướng nới lỏng các giả định có lợi cho các kết quả thử nghiệm nhất định. Gọi nó là phòng ngừa một thủ thuật tâm trí. Tôi đoán đó chỉ là tôi;).
steffen

1
@ steffen: bạn đúng về dị giáo, nhưng nếu hai quy trình cho kết quả giống nhau thì đó là vấn đề về hương vị nên sử dụng, nhưng nếu họ không kiểm tra các giả định và nơi họ thất bại thường có thể cung cấp cái nhìn sâu sắc hữu ích về dữ liệu. Cá nhân, tôi sử dụng spearman bất cứ nơi nào có thể, nhưng đây không phải là thông lệ trong lĩnh vực của tôi.
richiemorrisroe
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.