Hệ số của Pearson giữa hai biến khá cao (r = 0,65). Nhưng khi tôi xếp hạng các giá trị biến và chạy tương quan của Spearman, giá trị cofficient thấp hơn nhiều (r = .30).
- Giải thích về điều này là gì?
Hệ số của Pearson giữa hai biến khá cao (r = 0,65). Nhưng khi tôi xếp hạng các giá trị biến và chạy tương quan của Spearman, giá trị cofficient thấp hơn nhiều (r = .30).
Câu trả lời:
Nếu dữ liệu của bạn thường được phân phối hoặc phân phối đồng đều, tôi sẽ nghĩ rằng mối tương quan của Spearman và Pearson tương đối giống nhau.
Nếu họ cho kết quả rất khác nhau như trong trường hợp của bạn (0,65 so với 0,30), tôi đoán là bạn đã sai lệch dữ liệu hoặc ngoại lệ, và các ngoại lệ đang dẫn đến tương quan của Pearson lớn hơn tương quan của Spearman. Tức là, các giá trị rất cao trên X có thể cùng xảy ra với các giá trị rất cao trên Y.
Cũng xem những câu hỏi trước đây về sự khác biệt giữa tương quan của Spearman và Pearson:
Làm thế nào để lựa chọn giữa tương quan Pearson và Spearman?
Mối tương quan của Pearson hoặc Spearman với dữ liệu không bình thường
Sau đây là một mô phỏng đơn giản về cách điều này có thể xảy ra. Lưu ý rằng trường hợp dưới đây liên quan đến một ngoại lệ duy nhất, nhưng bạn có thể tạo ra các hiệu ứng tương tự với nhiều dữ liệu ngoại lệ hoặc dữ liệu sai lệch.
# Set Seed of random number generator
set.seed(4444)
# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1
# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)
# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")
plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")
# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)
Cung cấp đầu ra này
[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44
Phân tích tương quan cho thấy nếu không có Spearman và Pearson ngoại lệ thì khá giống nhau, và với ngoại lệ khá cực đoan, mối tương quan này hoàn toàn khác nhau.
Cốt truyện dưới đây cho thấy cách xử lý dữ liệu như các cấp bậc loại bỏ ảnh hưởng cực đoan của ngoại lệ, do đó dẫn đến Spearman tương tự cả có và không có ngoại lệ trong khi Pearson khá khác biệt khi được thêm vào ngoại lệ. Điều này nhấn mạnh tại sao Spearman thường được gọi là mạnh mẽ.