Khi nào tôi nên sử dụng từng phương pháp này để tính toán tương quan?


8

Tôi đang sử dụng R để phân tích dữ liệu. R cung cấp một corrhàm để tính toán mối tương quan. Hàm này cung cấp ba cách tiếp cận / thuật toán khác nhau để ước tính corrđó là Pearson, Spearman và Kendall. Khi nào tôi nên sử dụng từng phương pháp này? Những yếu tố nào quyết định phương pháp nào nên được sử dụng?


Mặc dù điều này nằm trong bối cảnh của R, nhưng câu hỏi thực sự là về sự khác biệt giữa ba biện pháp thống kê. Tôi cũng nói di cư.
Sean Owen

1
Câu hỏi này đã được hỏi tại stats.stackexchange.com/questions/45897/ ((chưa nhận được câu trả lời nào). Trang web của chúng tôi có nhiều tài liệu về mối tương quan, đặc biệt là so sánh các hệ số Pearson và Spearman: xem kết quả tìm kiếm tại stats.stackexchange.com/ .
whuber

Câu trả lời:


10

Hệ số thời điểm sản phẩm của Pearson (tham số pearson) đo lường mối tương quan tuyến tính giữa các biến. Do đó, nó phù hợp khi mối tương quan đáng ngờ của bạn là tuyến tính, có thể được kiểm tra trực quan bằng một âm mưu.

Hệ số Kendall Tau (tham số kendall) và hệ số tương quan của Spearman (tham số spearman) là các số đo tương quan xếp hạng. Vì vậy, mối tương quan giữa hai biến không cần phải tuyến tính. Phương pháp spearman về cơ bản là phương pháp pearson, nhưng được áp dụng trên các cấp bậc của các giá trị (thứ hạng của một giá trị được đưa ra bởi vị trí của nó sau khi sắp xếp các giá trị). Phương pháp kendal được xây dựng về cơ bản như một thống kê dưới dạng tỷ lệ giữa số lượng các cặp được đặt hàng bổ sung và tổng số cặp. Đối với phương pháp kendal, vì nó được xây dựng như một thống kê, người ta có thể xây dựng cũng sử dụng nó trong khuôn khổ kiểm tra giả thuyết, với tất cả các lợi ích (nó được gọi là kiểm tra tau).

Tất cả các phương pháp này là các công cụ được sử dụng để suy luận điều gì đó về sự phụ thuộc giữa các biến ngẫu nhiên. Xem thêm trên trang dành riêng cho Wikipedia dành riêng cho Tương quan và Phụ thuộc


Không phải sự thật là Spearman và Pearson cũng nên giống hệt nhau cho các mối quan hệ tuyến tính, vì vậy nếu nghi ngờ bạn có thể sử dụng Spearman và tự tin rằng bạn sẽ không bị loại bỏ nếu mối tương quan xảy ra là phi tuyến tính?
cwharland

1
Thành thật mà nói, tôi không biết liệu chúng có bằng nhau trong mối quan hệ tuyến tính hay không. Chắc chắn rằng pearson trên hàng ngũ là spearman. Tuy nhiên, trong quá trình chuyển đổi để xếp hạng một số điều xảy ra: pearson trở nên mạnh mẽ hơn đối với các ngoại lệ, hiệp phương sai bị thay đổi đáng kể, pearson kết hợp tiếng ồn có thể không độc lập (có thể được tạo ra bởi các yếu tố gây nhiễu). Nói chung, tôi sử dụng pearson cho suy luận dựa trên tuyến tính, spearman để kiểm tra xem có thứ gì khác ngoài tuyến tính hay không, cộng với các lệnh (chỉ có ý nghĩa đối với spearman).
rapaio

@cwharland Trong thực tế, họ có xu hướng không bằng nhau cho các mối quan hệ tuyến tính. Trong các mẫu bình thường bivariate tương quan (có mối quan hệ tuyến tính mà bạn đề xuất), mối tương quan Spearman thường (cả về trung bình và về trung vị phân phối của nó) gần bằng 0 so với Pearson. Cả hai đều thiên vị, nhưng Pearson là ít như vậy.
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.