Được phép sử dụng trung bình trên một tập dữ liệu để cải thiện mối tương quan?


9

Tôi có một tập dữ liệu với một biến phụ thuộc và một biến độc lập. Cả hai không phải là một chuỗi thời gian. Tôi có 120 quan sát. Hệ số tương quan là 0,43

Sau khi tính toán này, tôi đã thêm một cột cho cả hai biến với trung bình cho mỗi 12 quan sát, dẫn đến 2 cột mới với 108 quan sát (cặp). Hệ số tương quan của các cột này là 0,77

Có vẻ như tôi đã cải thiện mối tương quan theo cách này. Điều này có được phép làm không? Tôi đã tăng sức mạnh giải thích của biến độc lập bằng cách sử dụng trung bình?


4
Tất cả những gì bạn đã làm là chạy dữ liệu thông qua bộ lọc làm mịn. Điều này được thực hiện tất cả thời gian trong xử lý tín hiệu và nó hoàn toàn chấp nhận được và thường được yêu cầu trước khi dữ liệu thậm chí có thể sử dụng được. Nó giúp loại bỏ tiếng ồn luôn phổ biến trong các phép đo điện tử. Tuy nhiên, việc có thể chấp nhận được đối với vấn đề cụ thể của bạn hay không tùy thuộc vào chi tiết cụ thể về những gì bạn đang cố gắng đạt được và có thể ở mức độ lớn "nhiễu" so với "chất lượng" trong dữ liệu của bạn. Tôi chỉ nhận thấy "Cả hai không phải là một chuỗi thời gian" vì vậy tôi nghi ngờ rằng những gì bạn đã làm là vô nghĩa vì việc thay đổi thứ tự sẽ thay đổi kết quả
Dunk

Cảm ơn tất cả. Biến phụ thuộc của tôi là một chuỗi các kết quả hàng tháng của một hệ thống cá cược (những kết quả này không liên quan). Biến độc lập là kết quả của một chỉ số tôi xây dựng. Chỉ số này tạo ra một số điểm liên quan đến mức độ cực đoan của các trận đấu thể thao trong một tháng cụ thể (những trường hợp thể thao này không liên quan). Tôi đã nghi ngờ rằng những gì tôi làm là vô nghĩa, mặc dù điều đó làm tôi ngạc nhiên rằng hệ số tương quan đã cải thiện rất nhiều.
dùng2165379

2
Tôi không chắc chắn nhưng tôi nghĩ rằng trung bình bất kỳ dữ liệu nào cũng sẽ cho kết quả tương tự. Tôi sẽ nghĩ rằng việc tính trung bình làm giảm ảnh hưởng của các ngoại lệ. Do đó, mối tương quan sẽ phải cải thiện. Mặc dù, tôi sẽ cá rằng một số người đam mê toán học có thể đưa ra dữ liệu được chọn tốt sẽ gây ra ảnh hưởng ngược lại, nhưng tôi không mong đợi dữ liệu như thế xảy ra trong thế giới thực.
Dunk

Tôi không thể xem nếu bạn đã chỉ định dữ liệu này là gì. Tuy nhiên, nói chung, khi trình bày dữ liệu của bạn cho đối tượng được chỉ định, việc cung cấp thông tin về cách dữ liệu được dẫn xuất là một thực tiễn tốt.
Jon Milliken

3
Sự tương quan của các giá trị trung bình dự định đại diện là gì? Nó chắc chắn không còn là một ước tính hợp lý về mối tương quan giữa các biến ban đầu.
Glen_b -Reinstate Monica

Câu trả lời:


15

Chúng ta hãy nhìn vào hai vectơ, lần đầu tiên

    2 6 2 6 2 6 2 6 2 6 2 6

và vectơ thứ hai

   6 2 6 2 6 2 6 2 6 2 6 2

Tính toán tương quan Pearson bạn sẽ nhận được

cor(a,b)
[1] -1

Tuy nhiên, nếu bạn lấy trung bình của các cặp liên tiếp cho các giá trị thì cả hai vectơ đều giống nhau. Các vectơ giống hệt nhau có tương quan 1.

  4 4 4 4 4 4  

Ví dụ đơn giản này minh họa một nhược điểm của phương pháp của bạn.

Chỉnh sửa : Để giải thích tổng quát hơn: Hệ số tương quan được tính theo cách sau.

E[(X-μX)(Y-μY)]σX σY

XYXμXYμY


1
μσ

Cảm ơn bạn. Điều này có nghĩa là kết quả của tôi bị 'thổi phồng' bằng cách sử dụng mức trung bình và sẽ tốt hơn nếu sử dụng các quan sát mà không lấy trung bình?
dùng2165379

Để kiểm tra giả thuyết, bạn nên xem xét dữ liệu và không phải ở mức trung bình. Trong các lĩnh vực khác, thống kê mô tả có thể là một công cụ hữu ích. Bạn cũng nên có một cái nhìn khác về các số liệu thống kê mô tả như lượng tử (đặc biệt là trung bình) và các khoảnh khắc (tập trung) cao hơn, chẳng hạn như phương sai, độ lệch và kurtosis. Tuy nhiên trong trường hợp của chúng tôi điều này là không hữu ích. Các vectơ ab có cùng lượng tử, cùng thời điểm và cùng thời điểm tập trung.
Ferdi

1
Tính trung bình có xu hướng tăng các mối tương quan bằng cách loại bỏ phân tán bán ngẫu nhiên, nhưng tính trung bình đủ sai lệch có thể đẩy tương quan về không.
Nick Cox

Cảm ơn bạn. Vì vậy, nếu tính trung bình có xu hướng tăng tương quan nói chung, điều này có nghĩa nó không phải là một sự cải thiện? Hoặc nó là một cải tiến vì phân tán ngẫu nhiên gần như được loại bỏ?
dùng2165379

10

Tính trung bình có thể hấp dẫn hoặc thuận tiện. Nó cũng có thể là một nguồn của sự lừa dối, ở sự lừa dối tồi tệ nhất, vì vậy hãy cẩn thận ngay cả khi có một lý do rõ ràng để tính trung bình.

1

Có một số tình huống trong đó tính trung bình có thể có ý nghĩa. Ví dụ: nếu các biến thể theo mùa ít hoặc không quan tâm, thì việc tính trung bình vào các giá trị hàng năm sẽ tạo ra một tập dữ liệu giảm trong đó bạn có thể tập trung vào các giá trị hàng năm đó.

Trong các lĩnh vực khác nhau, các nhà nghiên cứu có thể quan tâm đến mối tương quan ở các quy mô khá khác nhau, ví dụ như giữa thất nghiệp và tội phạm đối với cá nhân, hạt, tiểu bang, quốc gia (thay thế bất kỳ thuật ngữ nào có ý nghĩa nhất).

Sự quan tâm, và thường cũng là một nguồn chính của những rắc rối suy luận, là trong việc diễn giải những gì đang diễn ra ở các quy mô hoặc cấp độ khác nhau. Ví dụ, mối tương quan cao giữa tỷ lệ thất nghiệp và tỷ lệ tội phạm đối với các khu vực không nhất thiết có nghĩa là người thất nghiệp có xu hướng trở thành tội phạm cao hơn; bạn cần dữ liệu về các cá nhân để rõ ràng về điều đó. Việc cung cấp dữ liệu có thể gây khó xử tối đa trong dữ liệu chỉ có sẵn ở quy mô ít thú vị nhất, có lẽ là vấn đề kinh tế hoặc bảo mật.

Tôi cũng lưu ý rằng nhiều phép đo ở vị trí đầu tiên thường tính trung bình trong các khoảng thời gian nhỏ và / hoặc khoảng không gian nhỏ, vì vậy dữ liệu thường đến trung bình trong mọi trường hợp.


3
Tôi lặp lại câu trả lời của @ Ferdi khi nhấn mạnh rằng có thể có nhiều cách khác nhau để trung bình. Điều này tạo ra một nguồn không chắc chắn. Khó khăn đặc biệt cấp tính trong việc tổng hợp các khu vực nhỏ đến lớn hơn.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.