Biện pháp tương quan nào nên được sử dụng với khoảng cách lớn (thiếu dữ liệu)?


8

Tôi đang cố gắng tương quan tuổi tác (6-90 tuổi) với độ to của giọng nói (tính bằng dB). Tuy nhiên, dữ liệu của tôi không chứa bất kỳ điểm dữ liệu nào trong phạm vi 20-50 năm.

Biện pháp tương quan nào là phù hợp nhất với khoảng cách đáng kể như vậy, và tại sao? Tôi đã sử dụng Kendall Tau cho đến nay.

Lưu ý rằng chúng tôi không xử lý dữ liệu phân phối hai chiều ở đây, nhưng với khoảng cách dữ liệu bị thiếu đáng kể trong độ tuổi.


1
Tiêu đề đề cập rằng có một khoảng cách trong một biến, nhưng từ phần thân có vẻ như khoảng trống nằm ở cả hai biến mà bạn đang cố gắng tính toán tương quan. Vì vậy, dữ liệu chính xác là thiếu?
mpiktas

Câu trả lời:


8

Tạo một biểu đồ phân tán để kiểm tra xem nó có ý nghĩa gì không khi cho rằng một hệ số tương quan duy nhất là một mô tả đầy đủ về mối liên hệ giữa các biến.

Ví dụ: trong các dữ liệu (mô phỏng) này, mối tương quan cho độ tuổi 6-20 là 90%, đối với độ tuổi từ 50 trở lên là -70% và nói chung là 15%. Trong tình huống như vậy, việc báo cáo một hệ số tương quan duy nhất sẽ là lừa dối khi báo cáo rằng số chân trung bình trong số vật nuôi trong gia đình là bốn khi một nửa số vật nuôi là cá và nửa còn lại là nhện ...

Scatterplot của tiếng ồn so với tuổi cho 150 người mô phỏng

Sự lựa chọn làm thế nào để thể hiện mối tương quan là mối quan tâm thứ yếu và dựa trên các khía cạnh khác của bộ dữ liệu.


Whuber là khôn ngoan. Với một khoảng cách lớn, tôi nghĩ rằng gần như không bao giờ có lý do để đưa ra bất kỳ tầm quan trọng nào cho một thước đo tương quan duy nhất.
Michael Giám mục

(+1) giai thoại cá nhện đẹp!
Dmitrij Celov 17/03/2016
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.