Mối tương quan của Pearson hoặc Spearman với dữ liệu không bình thường


113

Tôi nhận được câu hỏi này đủ thường xuyên trong công việc tư vấn thống kê của tôi, mà tôi nghĩ rằng tôi đã đăng nó ở đây. Tôi có một câu trả lời, được đăng dưới đây, nhưng tôi rất muốn nghe những gì người khác nói.

Câu hỏi: Nếu bạn có hai biến không được phân phối bình thường, bạn có nên sử dụng rho của Spearman cho tương quan không?


1
Tại sao không tính toán và báo cáo cả (Pearson's r Spearman's)? Sự khác biệt của họ (hoặc thiếu đó) sẽ cung cấp thêm thông tin.

Một câu hỏi so sánh các giả định phân phối được đưa ra khi chúng tôi kiểm tra mức ý nghĩa của hệ số hồi quy đơn giản beta và khi chúng tôi kiểm tra hệ số tương quan Pearson (số lượng thông thường với phiên bản beta) .stackexchange.com/q/181043/3277 .
ttnphns

Câu trả lời:


77

Mối tương quan của Pearson là thước đo mối quan hệ tuyến tính giữa hai biến ngẫu nhiên liên tục. Nó không giả định tính bình thường mặc dù nó giả định phương sai hữu hạn và hiệp phương sai hữu hạn. Khi các biến được chia đôi bình thường, mối tương quan của Pearson cung cấp một mô tả đầy đủ về liên kết.

Mối tương quan của Spearman áp dụng cho các cấp bậc và do đó cung cấp thước đo về mối quan hệ đơn điệu giữa hai biến ngẫu nhiên liên tục. Nó cũng hữu ích với dữ liệu thứ tự và rất mạnh đối với các ngoại lệ (không giống như tương quan của Pearson).

Sự phân bố của một trong hai hệ số tương quan sẽ phụ thuộc vào phân phối cơ bản, mặc dù cả hai đều bình thường không có triệu chứng vì định lý giới hạn trung tâm.


12
Pearson's không giả định tính bình thường, mà chỉ là một biện pháp liên kết toàn diện nếu phân phối chung là đa biến thông thường. Với sự nhầm lẫn này gợi ra sự khác biệt, bạn có thể muốn thêm nó vào câu trả lời của bạn. ρ
dùng603

3
Có một nguồn có thể được trích dẫn để hỗ trợ cho tuyên bố trên (Person r không giả định tính bình thường)? Chúng tôi đang có cùng một lập luận trong bộ phận của chúng tôi tại thời điểm này.

5
"Khi các biến được chia đôi bình thường, mối tương quan của Pearson cung cấp một mô tả đầy đủ về sự liên kết." Và khi các biến KHÔNG Bivariate bình thường, mối tương quan của Pearson hữu ích như thế nào?
Landroni

2
Câu trả lời này có vẻ khá gián tiếp. "Khi các biến được chia đôi bình thường ..." Và khi nào thì không? Loại giải thích này là lý do tại sao tôi không bao giờ có được số liệu thống kê. "Rob, làm thế nào để bạn thích chiếc váy mới của tôi?" "Màu tối làm nổi bật làn da sáng của bạn." "Chắc chắn, Rob, nhưng bạn có thích cách nó làm nổi bật làn da của tôi không?" "Da sáng được coi là đẹp trong nhiều nền văn hóa." "Tôi biết, Rob, nhưng bạn có thích nó không?" "Tôi nghĩ rằng chiếc váy là đẹp." "Tôi cũng nghĩ vậy, Rob, nhưng nó có đẹp với tôi không?" "Em luôn xinh đẹp với anh, em yêu." thở dài

1
Nếu bạn đọc hai câu trước đó, bạn sẽ tìm thấy câu trả lời.
Rob Hyndman

49

Đừng quên tau của Kendall ! Roger Newson đã lập luận cho tính ưu việt của Kendall τ một trên tương quan Spearman r S như một biện pháp cấp bậc dựa trên mối tương quan trong một bài báo có nội dung đầy đủ tại là tự do có sẵn trực tuyến:

Newson R. Các thông số đằng sau số liệu thống kê "không theo tỷ lệ": Kendall's tau, Somalia 'D và sự khác biệt trung bình . Tạp chí Stata 2002; 2 (1): 45-64.

Ông tham khảo (trên p47) Kendall & Gibbons (1990) khi lập luận rằng "... khoảng tin cậy cho Spearman r S ít đáng tin cậy và ít diễn giải hơn so với khoảng tin cậy đối với τ -parameter của Kendall , nhưng Spearman r S mẫu dễ dàng hơn nhiều được tính mà không có máy tính "(dĩ nhiên không còn quan trọng nữa). Thật không may, tôi không dễ dàng truy cập vào một bản sao của cuốn sách của họ:

Kendall, MG và JD Gibbons. 1990. Phương pháp tương quan xếp hạng . Tái bản lần thứ 5 Luân Đôn: Griffin.


2
Tôi cũng là một fan hâm mộ lớn của Kendall. Pearson quá nhạy cảm với các điểm / ngoại lệ có ảnh hưởng đối với sở thích của tôi và trong khi Spearman không gặp phải vấn đề này, cá nhân tôi thấy Kendall dễ hiểu, giải thích và giải thích hơn Spearman. Tất nhiên, số dặm của bạn có thể thay đổi.
Stephan Kolassa

Hồi ức của tôi từ kinh nghiệm là tau của Kendall vẫn chạy chậm hơn (tính bằng R) so với Spearman. Điều này có thể quan trọng nếu tập dữ liệu của bạn lớn.
lời giới thiệu

35

Từ góc độ ứng dụng, tôi quan tâm nhiều hơn đến việc chọn cách tiếp cận tóm tắt mối quan hệ giữa hai biến theo cách phù hợp với câu hỏi nghiên cứu của tôi. Tôi nghĩ rằng việc xác định một phương pháp để nhận được các lỗi và giá trị p chuẩn chính xác là một câu hỏi nên đến thứ hai. Ngay cả khi bạn chọn không dựa vào tiệm cận, vẫn luôn có tùy chọn để bootstrap hoặc thay đổi các giả định phân phối.

Theo nguyên tắc chung, tôi thích sự tương quan của Pearson vì (a) nó thường phù hợp hơn với lợi ích lý thuyết của tôi; (b) nó cho phép so sánh trực tiếp hơn các kết quả trong các nghiên cứu, bởi vì hầu hết các nghiên cứu trong khu vực của tôi báo cáo mối tương quan của Pearson; và (c) trong nhiều cài đặt có sự khác biệt tối thiểu giữa các hệ số tương quan Pearson và Spearman.

Tuy nhiên, có những tình huống mà tôi nghĩ rằng mối tương quan của Pearson với các biến thô là sai lệch.

  • Outliers: Outliers có thể có ảnh hưởng lớn đến tương quan của Pearson. Nhiều ngoại lệ trong cài đặt được áp dụng phản ánh các lỗi đo lường hoặc các yếu tố khác mà mô hình không có ý định khái quát hóa. Một lựa chọn là loại bỏ các ngoại lệ như vậy. Các ngoại lệ đơn biến không tồn tại với rho của Spearman vì mọi thứ đều được chuyển đổi thành các cấp bậc. Do đó, Spearman mạnh mẽ hơn.
  • Các biến bị lệch cao: Khi tương quan các biến bị lệch, đặc biệt là các biến bị lệch, một bản ghi hoặc một số biến đổi khác thường làm cho mối quan hệ cơ bản giữa hai biến trở nên rõ ràng hơn (ví dụ: kích thước não theo trọng lượng cơ thể của động vật). Trong các cài đặt như vậy, có thể số liệu thô không phải là số liệu có ý nghĩa nhất. Spearman's rho có tác động tương tự như chuyển đổi bằng cách chuyển đổi cả hai biến thành thứ hạng. Từ quan điểm này, rho của Spearman có thể được coi là một cách tiếp cận nhanh chóng và bẩn thỉu (hoặc tích cực hơn, nó ít chủ quan hơn), theo đó bạn không phải suy nghĩ về các biến đổi tối ưu.

Trong cả hai trường hợp trên, tôi sẽ khuyên các nhà nghiên cứu nên xem xét các chiến lược điều chỉnh (ví dụ: biến đổi, loại bỏ / điều chỉnh ngoại lệ) trước khi áp dụng tương quan của Pearson hoặc sử dụng rho của Spearman.


Vấn đề với chuyển đổi là, nói chung, nó cũng biến đổi các lỗi liên quan đến từng điểm, và do đó trọng số. Và nó không giải quyết vấn đề ngoại lệ.
skan

11

Đã cập nhật

Câu hỏi yêu cầu chúng ta lựa chọn giữa phương pháp của Pearson và Spearman khi tính chất bình thường được đặt ra. Hạn chế cho mối quan tâm này, tôi nghĩ rằng bài viết sau đây nên thông báo quyết định của bất kỳ ai:

Nó khá hay và cung cấp một cuộc khảo sát về các tài liệu quan trọng, kéo dài hàng thập kỷ, về chủ đề này - bắt đầu từ "các bề mặt bị cắt xén và biến dạng" của Pearson và sự phân phối mạnh mẽ của . Ít nhất một phần của bản chất mâu thuẫn của "sự thật" là phần lớn công việc này đã được thực hiện trước khi có sức mạnh tính toán - điều phức tạp vì loại hình phi quy tắc phải được xem xét và khó kiểm tra nếu không có mô phỏng.r

Phân tích Kowalski của kết luận rằng sự phân bố của là không mạnh mẽ trong sự hiện diện của không bình thường và đề nghị thủ tục thay thế. Toàn bộ bài viết khá nhiều thông tin và khuyến nghị nên đọc, nhưng bỏ qua phần kết luận rất ngắn ở phần cuối của bài viết để tóm tắt.r

Nếu được yêu cầu lựa chọn giữa một trong những Spearman và Pearson khi tính quy phạm bị vi phạm, thì phương án thay thế miễn phí phân phối đáng để ủng hộ, tức là phương pháp của Spearman.


Trước đây ..

Mối tương quan của Spearman là một thước đo tương quan dựa trên cấp bậc; nó không tham số và không dựa trên giả định về tính quy tắc.

Phân phối lấy mẫu cho mối tương quan của Pearson không giả định tính bình thường; đặc biệt điều này có nghĩa là mặc dù bạn có thể tính toán nó, các kết luận dựa trên thử nghiệm quan trọng có thể không đúng.

Như Rob chỉ ra trong các ý kiến, với mẫu lớn thì đây không phải là vấn đề. Tuy nhiên, với các mẫu nhỏ, khi tính bình thường bị vi phạm, mối tương quan của Spearman nên được ưu tiên.

Cập nhật thông tin về các bình luận và câu trả lời, đối với tôi, dường như điều này làm sôi sục cuộc tranh luận về các tham số không tham số so với thông số thông thường. Phần lớn tài liệu, ví dụ như trong thống kê sinh học, không đề cập đến các mẫu lớn. Tôi thường không ung dung khi dựa vào tiệm cận. Có lẽ nó hợp lý trong trường hợp này, nhưng điều đó không dễ thấy đối với tôi.


1
Không. Mối tương quan của Pearson KHÔNG giả định tính bình thường. Đây là một ước tính về mối tương quan giữa hai biến ngẫu nhiên liên tục bất kỳ và là một ước lượng phù hợp trong các điều kiện tương đối chung. Ngay cả các thử nghiệm dựa trên mối tương quan của Pearson cũng không yêu cầu tính quy phạm nếu các mẫu đủ lớn vì CLT.
Rob Hyndman

2
Tôi có ấn tượng rằng Pearson được định nghĩa miễn là các phân phối cơ bản có phương sai và hiệp phương sai hữu hạn. Vì vậy, tính quy phạm là không bắt buộc. Nếu các phân phối cơ bản không bình thường thì thống kê kiểm tra có thể có phân phối khác nhưng đó là vấn đề thứ yếu và không liên quan đến câu hỏi trong tay. Có phải vậy không?

2
@Rob: Vâng, chúng tôi luôn có thể đưa ra cách giải quyết để làm cho mọi thứ hoạt động gần giống nhau. Đơn giản là để tránh phương pháp của Spearman - điều mà hầu hết những người không theo thống kê có thể xử lý bằng một lệnh tiêu chuẩn. Tôi đoán lời khuyên của tôi vẫn là sử dụng phương pháp của Spearman cho các mẫu nhỏ trong đó tính quy phạm là nghi vấn. Không chắc chắn nếu đó là tranh chấp ở đây hay không.
ars

1
@ars. Tôi sẽ sử dụng Spearman nếu tôi quan tâm đến sự đơn điệu hơn là liên kết tuyến tính, hoặc nếu có các ngoại lệ hoặc mức độ lệch cao. Tôi sẽ sử dụng Pearson cho các mối quan hệ tuyến tính với điều kiện không có ngoại lệ. Tôi không nghĩ kích thước mẫu có liên quan trong việc lựa chọn.
Rob Hyndman

3
@Rob: OK, cảm ơn vì cuộc thảo luận. Tôi đồng ý với phần đầu tiên, nhưng nghi ngờ phần cuối cùng, và sẽ bao gồm kích thước đó chỉ đóng vai trò vì các triệu chứng thông thường không áp dụng. Ví dụ, Kowalski 1972 có một cuộc khảo sát khá tốt về lịch sử xung quanh vấn đề này và kết luận rằng mối tương quan của Pearson không mạnh mẽ như suy nghĩ. Xem: jstor.org/pss/2346598
ars
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.