Điều gì có thể gây ra sự khác biệt lớn về hệ số tương quan giữa tương quan của Pearson và Spearman cho một tập dữ liệu nhất định?


22

Hệ số của Pearson giữa hai biến khá cao (r = 0,65). Nhưng khi tôi xếp hạng các giá trị biến và chạy tương quan của Spearman, giá trị cofficient thấp hơn nhiều (r = .30).

  • Giải thích về điều này là gì?

5
Nói chung, nên hiển thị một biểu đồ phân tán dữ liệu trước khi diễn giải một hệ số tương quan.
chl

Cỡ mẫu của bạn là bao nhiêu?
Jeromy Anglim

Câu trả lời:


37

Tại sao sự khác biệt lớn

  • Nếu dữ liệu của bạn thường được phân phối hoặc phân phối đồng đều, tôi sẽ nghĩ rằng mối tương quan của Spearman và Pearson tương đối giống nhau.

  • Nếu họ cho kết quả rất khác nhau như trong trường hợp của bạn (0,65 so với 0,30), tôi đoán là bạn đã sai lệch dữ liệu hoặc ngoại lệ, và các ngoại lệ đang dẫn đến tương quan của Pearson lớn hơn tương quan của Spearman. Tức là, các giá trị rất cao trên X có thể cùng xảy ra với các giá trị rất cao trên Y.

  • @chl là tại chỗ. Bước đầu tiên của bạn là nhìn vào cốt truyện phân tán.
  • Nhìn chung, sự khác biệt lớn như vậy giữa Pearson và Spearman là một lá cờ đỏ cho thấy rằng
    • tương quan Pearson có thể không phải là một bản tóm tắt hữu ích về mối liên hệ giữa hai biến của bạn, hoặc
    • bạn nên chuyển đổi một hoặc cả hai biến trước khi sử dụng tương quan Pearson, hoặc
    • bạn nên xóa hoặc điều chỉnh các ngoại lệ trước khi sử dụng tương quan của Pearson.

Câu hỏi liên quan

Cũng xem những câu hỏi trước đây về sự khác biệt giữa tương quan của Spearman và Pearson:

Ví dụ R đơn giản

Sau đây là một mô phỏng đơn giản về cách điều này có thể xảy ra. Lưu ý rằng trường hợp dưới đây liên quan đến một ngoại lệ duy nhất, nhưng bạn có thể tạo ra các hiệu ứng tương tự với nhiều dữ liệu ngoại lệ hoặc dữ liệu sai lệch.

# Set Seed of random number generator
set.seed(4444)

# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1

# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)

# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")

plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")

# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)

Cung cấp đầu ra này

[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44

Phân tích tương quan cho thấy nếu không có Spearman và Pearson ngoại lệ thì khá giống nhau, và với ngoại lệ khá cực đoan, mối tương quan này hoàn toàn khác nhau.

Cốt truyện dưới đây cho thấy cách xử lý dữ liệu như các cấp bậc loại bỏ ảnh hưởng cực đoan của ngoại lệ, do đó dẫn đến Spearman tương tự cả có và không có ngoại lệ trong khi Pearson khá khác biệt khi được thêm vào ngoại lệ. Điều này nhấn mạnh tại sao Spearman thường được gọi là mạnh mẽ.

nhập mô tả hình ảnh ở đây

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.