Làm cách nào để biết khi nào nên chọn giữa Spearman's và Pearson's ? Biến của tôi bao gồm sự hài lòng và điểm số được diễn giải bằng cách sử dụng tổng điểm. Tuy nhiên, những điểm số này cũng có thể được xếp hạng.
Làm cách nào để biết khi nào nên chọn giữa Spearman's và Pearson's ? Biến của tôi bao gồm sự hài lòng và điểm số được diễn giải bằng cách sử dụng tổng điểm. Tuy nhiên, những điểm số này cũng có thể được xếp hạng.
Câu trả lời:
Nếu bạn muốn khám phá dữ liệu của mình, tốt nhất là tính toán cả hai, vì mối quan hệ giữa tương quan Spearman (S) và Pearson (P) sẽ cung cấp một số thông tin. Tóm lại, S được tính trên các cấp bậc và do đó mô tả các mối quan hệ đơn điệu trong khi P là các giá trị thực và mô tả các mối quan hệ tuyến tính.
Ví dụ: nếu bạn đặt:
x=(1:100);
y=exp(x); % then,
corr(x,y,'type','Spearman'); % will equal 1, and
corr(x,y,'type','Pearson'); % will be about equal to 0.25
Điều này là do tăng đơn điệu với nên tương quan Spearman là hoàn hảo, nhưng không tuyến tính, do đó tương quan Pearson là không hoàn hảo.
corr(x,log(y),'type','Pearson'); % will equal 1
Làm cả hai đều thú vị bởi vì nếu bạn có S> P, điều đó có nghĩa là bạn có một mối tương quan đơn điệu nhưng không tuyến tính. Vì thật tốt khi có tính tuyến tính trong thống kê (dễ dàng hơn), bạn có thể thử áp dụng một phép biến đổi trên (một bản ghi như vậy).
Tôi hy vọng điều này sẽ giúp làm cho sự khác biệt giữa các loại tương quan dễ hiểu hơn.
Câu trả lời ngắn nhất và chủ yếu là:
Pearson điểm chuẩn mối quan hệ tuyến tính , Spearman điểm chuẩn mối quan hệ đơn điệu (một vài trường hợp phổ biến hơn, nhưng đối với một số sự đánh đổi quyền lực).
Vì vậy, nếu bạn giả sử / nghĩ rằng mối quan hệ là tuyến tính (hoặc, như một trường hợp đặc biệt, thì đó là hai biện pháp của cùng một điều, vì vậy mối quan hệ là ) và tình huống không quá mệt mỏi (kiểm tra các câu trả lời khác để biết chi tiết), đi với Pearson. Nếu không thì sử dụng Spearman.
Điều này thường xảy ra trong thống kê: có nhiều phương pháp có thể được áp dụng trong tình huống của bạn và bạn không biết nên chọn phương pháp nào. Bạn nên căn cứ vào quyết định của mình những ưu và nhược điểm của các phương pháp đang được xem xét và các chi tiết cụ thể của vấn đề của bạn, nhưng ngay cả khi đó quyết định thường chủ quan không có câu trả lời "đúng" đã được thống nhất. Thông thường nên thử nhiều phương pháp có vẻ hợp lý và sự kiên nhẫn của bạn sẽ cho phép và xem phương pháp nào mang lại cho bạn kết quả tốt nhất cuối cùng.
Sự khác biệt giữa tương quan Pearson và tương quan Spearman là Pearson thích hợp nhất cho các phép đo được lấy từ thang đo khoảng , trong khi Spearman thích hợp hơn cho các phép đo lấy từ thang đo thứ tự . Ví dụ về thang đo khoảng bao gồm "nhiệt độ tính bằng Farenheit" và "chiều dài tính bằng inch", trong đó các đơn vị riêng lẻ (1 độ F, 1 in) có ý nghĩa. Những thứ như "điểm hài lòng" có xu hướng thuộc loại thứ tự vì trong khi rõ ràng "5 hạnh phúc" hạnh phúc hơn "3 hạnh phúc", không rõ liệu bạn có thể đưa ra một cách giải thích có ý nghĩa về "1 đơn vị hạnh phúc" hay không. Nhưng khi bạn thêm nhiều phép đo của loại thứ tự, đó là những gì bạn có trong trường hợp của bạn, bạn kết thúc bằng một phép đo thực sự không phải là thứ tự hay khoảng cách, và rất khó để giải thích.
Tôi khuyên bạn nên chuyển đổi điểm hài lòng của mình thành điểm số lượng tử và sau đó làm việc với tổng của những điểm đó, vì điều này sẽ cung cấp cho bạn dữ liệu dễ hiểu hơn một chút để giải thích. Nhưng ngay cả trong trường hợp này cũng không rõ liệu Pearson hay Spearman sẽ phù hợp hơn.
Tôi chạy vào một trường hợp góc thú vị ngày hôm nay.
Nếu chúng ta đang xem xét số lượng mẫu rất nhỏ, sự khác biệt giữa Spearman và Pearson có thể rất ấn tượng.
Trong trường hợp dưới đây, hai phương pháp báo cáo một mối tương quan hoàn toàn trái ngược .
Một số quy tắc nhanh để quyết định Spearman so với Pearson:
ps Đây là mã R để tái tạo biểu đồ trên:
# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3, -2.5,+0.6)
plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")
spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
c("Red line: regression.",
sprintf("Spearman: %.5f",spearman),
sprintf("Pearson: +%.5f",pearson)
))
Trong khi đồng ý với câu trả lời charles, tôi sẽ đề nghị (ở mức độ thực tế nghiêm ngặt) rằng bạn tính cả hai hệ số và xem xét sự khác biệt. Trong nhiều trường hợp, chúng sẽ giống hệt nhau, vì vậy bạn không cần phải lo lắng.
Tuy nhiên, nếu chúng khác nhau thì bạn cần xem xét liệu bạn có đáp ứng các giả định của Pearsons (phương sai và tuyến tính không đổi) hay không và nếu chúng không được đáp ứng, có lẽ bạn nên sử dụng Spearmans.