Điều đó như là một mối tương quan trọng số?


14

Tôi có một số dữ liệu thú vị về các nghệ sĩ âm nhạc nổi tiếng nhất được phân chia theo địa điểm thành khoảng 200 quận của quốc hội. Tôi muốn xem liệu có thể thăm dò ý kiến ​​của một người theo sở thích âm nhạc của người đó hay không và xác định xem người đó "nghe như Dân chủ" hay "nghe như một người Cộng hòa". (Đương nhiên điều này là nhẹ lòng, nhưng có dữ liệu thực sự trong dữ liệu!)

Tôi có dữ liệu về khoảng 100 nghệ sĩ, cộng với tỷ lệ phiếu bầu trung bình cho đảng Cộng hòa và Dân chủ ở mỗi quận trong ba chu kỳ bầu cử vừa qua. Vì vậy, tôi đã chạy một mối tương quan trên mỗi nghệ sĩ để xem những người nào được lắng nghe một cách không tương xứng như là một chức năng chia sẻ phiếu bầu cho đảng Dân chủ. Những tương quan đó chạy từ khoảng .3 0,3 đến 0,3 đối với bất kỳ nghệ sĩ nào, với rất nhiều ở giữa có ít hoặc không có sức mạnh dự đoán.

Tôi có hai câu hỏi: Thứ nhất, tổng số luồng trên mỗi huyện rất khác nhau. Ngay bây giờ, tôi đang tương quan tỷ lệ phần trăm của tất cả các luồng trên mỗi quận thuộc về, ví dụ, Beyonce, so với tỷ lệ phiếu bầu cho đảng Dân chủ. Nhưng tổng số luồng trong một huyện có thể lên tới hàng triệu, trong khi một luồng khác ở mức 100.000 thấp. Tôi có cần phải cân nhắc mối tương quan bằng cách nào đó để giải thích cho điều này?

Thứ hai, tôi tò mò làm thế nào để kết hợp những mối tương quan này thành một phỏng đoán tổng hợp về chính trị của người dùng. Giả sử tôi lấy 20 nghệ sĩ có giá trị tương quan tuyệt đối cao nhất (tích cực và tiêu cực), mười người theo mỗi hướng và thăm dò ý kiến ​​của người dùng về mức độ họ thích mỗi nghệ sĩ. Vì vậy, tôi có số phiếu tăng hoặc giảm cho mỗi nghệ sĩ cộng với mối tương quan với chính trị cho tất cả 20 giá trị. Có một cách tiêu chuẩn để kết hợp các mối tương quan này vào một ước tính duy nhất? (Tôi đang nghĩ đến một cái gì đó giống như nổi tiếng của NYTimes đố phương ngữ , nơi mà nó kết hợp xác suất trong khu vực cho 25 câu hỏi thành một bản đồ nhiệt. Nhưng trong trường hợp này, tôi chỉ cần một giá trị duy nhất về cách hương vị của đảng Dân chủ hay đảng Cộng hòa của một người trong âm nhạc là.

Cảm ơn bạn!

Câu trả lời:


25

Có thể dễ dàng tìm thấy công thức cho tương quan Pearson có trọng số trên web , StackOverflowWikipedia và được triển khai trong một số gói R, ví dụ như psych , hoặc weight và trong gói thống kê của Python . Nó được tính như tương quan thông thường nhưng với việc sử dụng các phương tiện có trọng số ,

mX=iwixiiwi,    mY=iwiyiiwi

phương sai trọng số ,

sX=iwi(ximX)2iwi,    sY=iwi(yimY)2iwi

và hiệp phương sai có trọng số

sXY=iwi(ximX)(yimY)iwi

có tất cả điều này bạn có thể dễ dàng tính toán tương quan trọng số

ρXY=sXYsXsY

As about your second question, as I understand it, you would have data about correlations between political orientation and preference for the twenty artists and users binary answers about his/her preference and you want to get some kind of aggregate measure of it.

Let's start with averaging correlations. There are multiple methods for averaging probabilities, but there doesn't seem to be so many approaches to averaging correlations. One thing that could be done is to use Fisher's z-transformation as described on MathOverflow, i.e.

ρ¯=tanh1(j=1Ktanh(ρj)K)

Basically taking tangents of correlation coefficients "flattens" the extreme values (see below) so they have lower influence on the final estimate and makes their distribution closer to normal. This procedure was also described by Bushman and Wang (1995) and Corey, Dunlap and Burke (1998).

enter image description here

Next, you have to notice that if r=cor(X,Y), then r=cor(X,Y)=cor(X,Y), so positive correlation of musical preference with some political orientation is the same as negative correlation of musical dislike to such political orientation, and the other way around.

Now, let's define rj as correlation of musical preference of j-th artist to some political orientation, and xij as i-th users preference for j-th artist, where xij=1 for preference and xij=1 for dislike. You can define your final estimate as

r¯i=tanh1(j=1Ktanh(rjxij)K)

i.e. compute average correlation that inverts the signs for correlations accordingly for preferred and disliked artists. By applying such procedure you end up with the average "correlation" of users preference and political orientation, that as regular correlation ranges from 1 to 1.

But...

Don't you think that all of this is an overkill for something that is basically a multiple regression problem? Instead all the weighting and averaging you could simply use weighted multiple regression (linear or logistic depending if you predict binary preference or degree off preference in either direction) where weights are based on sizes of subsamples. You would use musical preference for each artist as predictor. In the end you'll use user's preference to make predictions. This approach is simpler and more statistically elegant. It also applies relative weights to the artists while averaging the correlations doesn't correct for their relative "impact" on the final score. Moreover, regression takes into consideration the base rate (or default political orientation), while averaging correlations does not. Imagine that vast majority of the population prefers party A, this should make you less eager to predict B's and regression accounts for that by including intercept. The only problem is multicollinearity but when averaging correlations you ignore it rather then dealing with it.


Bushman, B.J., & Wang, M.C. (1995). A procedure for combining sample correlation coefficients and vote counts to obtain an estimate and a confidence interval for the population correlation coefficient. Psychological Bulletin, 117(3), 530.

Corey, D.M., Dunlap, W.P., and Burke, M.J. (1998). Averaging Correlations: Expected Values and Bias in Combined Pearson rs and Fisher's z Transformations, The Journal of General Psychology, 125(3), 245-261.


Thank you! This helps tremendously. Will award bounty when it becomes available later today.
Chris Wilson

@Tim How is the weighted covariance calculated in cases where xi and yi have different reliability weights?
Kagaratsch

1
@Kagaratsch I never seen such formula. This qualifies as a nice question to ask.
Tim
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.