Làm thế nào tổng của hai biến giải thích nhiều phương sai hơn các biến riêng lẻ?


13

Tôi nhận được một số kết quả khó hiểu cho mối tương quan của một tổng với biến thứ ba khi hai yếu tố dự đoán có tương quan nghịch. Điều gì gây ra những kết quả bối rối này?

Ví dụ 1: Tương quan giữa tổng của hai biến và biến thứ ba

Hãy xem xét công thức 16,23 trên trang 427 của văn bản năm 1969 của Guildford, được hiển thị bên dưới.

Tìm kiếm Perplexing: Nếu cả hai biến tương quan .2 với biến thứ ba và tương quan -.7 với nhau, công thức dẫn đến giá trị là 0,52. Làm thế nào có thể tương quan của tổng với biến thứ ba là 0,52 nếu hai biến mỗi chỉ tương quan .2 với biến thứ ba?

Ví dụ 2: Tương quan nhiều giữa hai biến và biến thứ ba là gì?

Hãy xem xét công thức 16.1 trên trang 404 của văn bản năm 1969 của Guildford (hiển thị bên dưới).

Tìm kiếm bối rối: Tình hình tương tự. Nếu cả hai biến tương quan .2 với biến thứ ba và tương quan -.7 với nhau, công thức dẫn đến giá trị là 0,52. Làm thế nào có thể tương quan của tổng với biến thứ ba là 0,52 nếu hai biến mỗi chỉ tương quan .2 với biến thứ ba?

Tôi đã thử một mô phỏng Monte Carlo nhỏ nhanh chóng và nó xác nhận kết quả của các công thức Guilford.

Nhưng nếu hai yếu tố dự đoán, mỗi yếu tố dự đoán 4% phương sai của biến thứ ba, làm thế nào một tổng số có thể dự đoán 1/4 phương sai?

tương quan tổng của hai biến với biến thứ ba nhiều tương quan của hai biến với một biến thứ ba

Nguồn: Thống kê cơ bản trong Tâm lý học và Giáo dục, tái bản lần thứ 4, năm 1965.

LÀM RÕ

Tình huống tôi đang giải quyết liên quan đến việc dự đoán hiệu suất trong tương lai của từng người dựa trên việc đo lường khả năng của họ bây giờ.

Hai sơ đồ Venn dưới đây cho thấy sự hiểu biết của tôi về tình huống và nhằm làm rõ sự bối rối của tôi.

Biểu đồ Venn này (Hình 1) phản ánh thứ tự 0 r = .2 giữa x1 và C. Trong trường của tôi có nhiều biến dự đoán như vậy có thể dự đoán một cách khiêm tốn một tiêu chí.

Hình 1

Biểu đồ Venn này (Hình 2) phản ánh hai dự báo như vậy, x1 và x2, mỗi dự đoán C tại r = .2 và hai dự đoán tương quan nghịch, r = -. 7.

Hình 2

Tôi không thể hình dung được mối quan hệ giữa hai yếu tố dự đoán r = .2 sẽ cùng nhau dự đoán 25% phương sai của C.

Tôi tìm kiếm sự giúp đỡ để hiểu mối quan hệ giữa x1, x2 và C.

Nếu (như được đề xuất bởi một số người trả lời câu hỏi của tôi) x2 đóng vai trò là biến triệt tiêu cho x1, khu vực nào trong sơ đồ Venn thứ hai đang bị triệt tiêu?

Nếu một ví dụ cụ thể sẽ hữu ích, chúng ta có thể coi x1 và x2 là hai khả năng của con người và C là GPA đại học 4 năm, 4 năm sau.

Tôi đang gặp khó khăn khi hình dung làm thế nào một biến số triệt tiêu có thể gây ra phương sai 8% được giải thích của hai r = .2 zero order r để phóng to và giải thích 25% phương sai của C. Một ví dụ cụ thể sẽ là một câu trả lời rất hữu ích.


Có một quy tắc cũ trong thống kê rằng phương sai của tổng của một tập hợp các biến độc lập bằng tổng phương sai của chúng.
Mike Hunter

@DJohnson. Làm thế nào để bình luận của bạn liên quan đến câu hỏi được hỏi?
Joel W.

Xin lỗi, tôi không hiểu câu hỏi. Đối với tôi, rõ ràng nó liên quan như thế nào. Bên cạnh đó, đó là một nhận xét không đủ điều kiện cho tiền thưởng cũng như không yêu cầu xây dựng sâu hơn.
Mike Hunter

1
@DJohnson. Làm thế nào để bình luận của bạn liên quan đến câu hỏi được hỏi? Đối với tôi, nó không rõ ràng liên quan như thế nào.
Joel W.

2
Câu hỏi của bạn về ý nghĩa của lượt xem N có thể nhận được phản hồi tốt hơn trên trang Meta CV.
mdewey

Câu trả lời:


3

Điều này có thể xảy ra khi cả hai yếu tố dự đoán đều chứa yếu tố phiền toái lớn, nhưng với dấu hiệu ngược lại, vì vậy khi bạn thêm chúng vào, phiền toái sẽ hủy bỏ và bạn có được một cái gì đó gần hơn với biến thứ ba.

Hãy minh họa bằng một ví dụ thậm chí còn cực đoan hơn. Giả sử là các biến ngẫu nhiên tiêu chuẩn thông thường độc lập. Bây giờ hãy đểX,YN(0,1)

A=X

B=X+0.00001Y

Giả sử là biến thứ ba của bạn, A , B là hai biến dự đoán của bạn và X là biến tiềm ẩn mà bạn không biết gì về nó. Tương quan của A với Y là 0 và tương quan của B với Y là rất nhỏ, gần bằng 0,00001. * Nhưng tương quan của A + B với Y là 1.YA,BXA+BY

* Có một sự điều chỉnh nhỏ xíu cho độ lệch chuẩn của B là hơn 1 chút.


Có loại tình huống này bao giờ phát sinh trong khoa học xã hội?
Joel W.

1
Trong thuật ngữ khoa học xã hội, về cơ bản, đây chỉ là một hiệu ứng mạnh làm nhiễu một hiệu ứng yếu theo một cách cụ thể. Tôi không phải là một chuyên gia khoa học xã hội, nhưng tôi không thể tưởng tượng được việc tìm một ví dụ về điều đó thật khó.
Paul

Bạn có thể có bất kỳ ví dụ từ các khoa học vật lý khác không?
Joel W.

Mối quan hệ bạn mô tả có thể được hiển thị trong sơ đồ Venn không?
Joel W.

Cá nhân tôi sẽ không tìm thấy một sơ đồ Venn hữu ích ở đây nhưng nếu bạn phải, tôi sẽ vẽ B thành một hình chữ nhật, sau đó chia nó thành hai hình chữ nhật phụ, một chữ A to béo và một chữ nhỏ gầy Y. Tóm tắt A và B là hủy bỏ phần lớn A và để lại phần nhỏ Y.
Paul

10

Nó có thể hữu ích để quan niệm ba biến là sự kết hợp tuyến tính của các biến không tương quan khác. Để cải thiện cái nhìn sâu sắc của chúng tôi, chúng tôi có thể mô tả chúng về mặt hình học, làm việc với chúng theo đại số và cung cấp các mô tả thống kê khi chúng tôi muốn.

Xem xét, sau đó, ba không tương quan zero-mean, các biến đơn vị sai , Y , và Z . Từ những cấu trúc này như sau:XYZ

U=X,V=(7X+51Y)/10;W=(3X+17Y+55Z)/75.

Giải thích hình học

Đồ họa sau đây là về tất cả những gì bạn cần để hiểu mối quan hệ giữa các biến này.

Figure

Biểu đồ giả 3D này hiển thị , V , WU + V trong hệ tọa độ X , Y , Z. Các góc giữa các vectơ phản ánh mối tương quan của chúng (các hệ số tương quan là cosin của các góc). Mối tương quan âm lớn giữa UV được phản ánh trong góc tù giữa chúng. Các mối tương quan dương nhỏ của UV với W được phản ánh bởi độ gần vuông góc của chúng. Tuy nhiên, tổng của UV rơi trực tiếp bên dướiUVWU+VX,Y,ZUVUVWUVW, tạo một góc nhọn (khoảng 45 độ): có mối tương quan dương cao bất ngờ.


Tính toán đại số

Đối với những người muốn nghiêm ngặt hơn, đây là đại số để sao lưu hình học trong đồ họa.

Tất cả các căn bậc hai đều có trong đó để làm cho , VW có phương sai đơn vị: điều đó giúp dễ dàng tính toán các mối tương quan của chúng, bởi vì các mối tương quan sẽ bằng hiệp phương sai. vì thếUVW

Cor(U,V)=Cov(U,V)=E(UV)=E(51XY7X2)/10=7/10=0.7

Y không tương quan. Tương tựXY

Cor(U,W)=3/75=1/5=0.2

Cor(V,W)=(73+1517)/(1075)=1/5=0.2.

Cuối cùng,

Cor(U+V,W)=Cov(U+V,W)Var(U+V)Var(W)=1/5+1/5Var(U)+Var(V)+2Cov(U,V)=2/51+12(7/10)=2/53/50.5164.

Do đó, ba biến này có mối tương quan mong muốn.


Giải thích thống kê

Bây giờ chúng ta có thể thấy lý do tại sao mọi thứ hoạt động như nó:

  • V có một mối tương quan tiêu cực mạnh mẽ của - 7 / 10 V là tỉ lệ với tiêu cực của U cộng với một chút "tiếng ồn" trong hình thức một bội số nhỏ của Y .UV7/10VUY

  • W có tương quan dương tính yếu 1 / 5 W bao gồm một bội số nhỏ của U cộng với rất nhiều tiếng ồn dưới dạng bội số của Y Z .UW1/5WUYZ

  • W có tương quan dương tính yếu 1 / 5 W (khi nhânVW1/5W , sẽ không thay đổi bất kỳ mối tương quan nào) là tổng của ba điều:75

    • , tương quan dương vớiV;17YV
    • , cótương quanâmvớiV3XV làm giảm tương quan tổng thể;
    • và bội số của giới thiệu rất nhiều nhiễu.Z
  • Tuy nhiên, là khá tương quan thuận vớiWvì nó là một bội số của một phần củaWmà không bao gồmZ.U+V=(3X+51Y)/10=3/100(3X+17Y)WWZ


Có cách nào để thể hiện điều này trong sơ đồ Venn không? Mặc dù toán học, tôi vẫn không thấy logic của tổng hai biến giải thích 25 +% phương sai của biến thứ ba khi mỗi biến hai biến đi vào tổng dự đoán nhưng 4% phương sai của biến thứ ba đó . Làm thế nào 8% giải thích phương sai trở thành 25% giải thích phương sai chỉ bằng cách thêm hai biến?
Joel W.

Ngoài ra, có những ứng dụng thực tế của hiện tượng kỳ lạ này?
Joel W.

Nếu một sơ đồ Venn không phù hợp để biểu thị phương sai được giải thích, bạn có thể cho tôi biết tại sao nó không phù hợp không?
Joel W.

@JoelW. Câu trả lời hay ở đây chạm vào lý do tại sao biểu đồ Venn không hoàn thành nhiệm vụ minh họa hiện tượng này (đến cuối câu trả lời): stats.stackexchange.com/a/73876/5829
Jake Westfall

Joel, Cohens đã sử dụng sơ đồ giống như Venn mà họ gọi là "Ballantine" để phân tích phương sai. Xem ww2.amstat.org/publications/jse/v10n1/kennedy.html chẳng hạn. Theo như các ứng dụng thực tế, bạn nên đặt câu hỏi ngược lại: những ứng dụng nào của phân rã phương sai và phương sai không thực tế?
whuber

5

Một ví dụ đơn giản khác:

  • Đặt zN(0,1)
  • Hãy x1N(0,1)
  • Đặt (do đó z = x 1 + x 2 )x2=zx1z=x1+x2

Sau đó:

  • Corr(z,x1)=0
  • Corr(z,x2).7
  • Corr(z,x1+x2)=1

Về mặt hình học, những gì đang diễn ra giống như trong đồ họa của WHuber. Về mặt khái niệm, nó có thể trông giống như thế này: enter image description here

E[XY]

x1zθ

  • Corr(z,x1)=cosθzx1=0θz,x1=π2
  • Corr(z,x2)=cosθzx2.7θz,x2=π4
  • Corr(z,x1+x2)=cosθz,x1+x2=1θz,x1+x2=0

zx1x2zx1x1x2x1x2


(+1) Ví dụ hay!
dùng795305

Hãy giải thích các tiền đề của câu trả lời của bạn. Sau khi đặt z = x1 + x2, tại sao lại nói là rồi rồi Corr (z, x1) = 0? Bạn đang nói rằng Corr (z, x1) = 0 xuất phát từ câu lệnh Let đầu tiên của bạn, hay là mối tương quan của số 0 là một giả định bổ sung? Nếu đó là một giả định bổ sung, tại sao tình huống trong câu hỏi ban đầu lại yêu cầu giả định bổ sung đó?
Joel W.

zx1zx1zx1x2

@MatthewGunn. Thứ ba của bạn Hãy nói z = x1 + x2. Điều đó dường như vi phạm hai Cho phép đầu tiên của bạn nói rằng z và x1 là độc lập.
Joel W.

1
z=x1+x2zx1

3

Phát biểu ý kiến ​​của bạn:

Mặc dù toán học, tôi vẫn không thấy logic của tổng hai biến giải thích 25 +% phương sai của biến thứ ba khi mỗi biến hai biến đi vào tổng dự đoán nhưng 4% phương sai của biến thứ ba đó . Làm thế nào 8% giải thích phương sai trở thành 25% giải thích phương sai chỉ bằng cách thêm hai biến?

Vấn đề ở đây dường như là thuật ngữ "phương sai giải thích". Giống như rất nhiều thuật ngữ trong thống kê, điều này đã được chọn để làm cho nó có vẻ như nó có nghĩa nhiều hơn thực tế.

Y

y=(6,7,4,8,9,6,6,3,5,10)

UYRRY

r=(20,80,100,90,50,70,40,30,40,60)

U=R+0.1Y

u=(19.4,79.3,100.4,90.8,50.9,70.6,40.6,30.3,40.5,61.0)

V=R+0.1Y

v=(20.6,80.7,99.6,89.2,49.1,69.4,39.4,29.7,39.5,59.0)

UVYr0.2YY .

YUURVRYU+V

Sơ đồ của từng biến

ABBA


@ naught101 đã tạo ra một số số liệu để minh họa các biến của bạn, Flounderer. Bạn có thể muốn xem nếu bao gồm họ hấp dẫn bạn.
gung - Phục hồi Monica

Chắc chắn, chỉnh sửa nó theo cách bạn muốn. Tôi thực sự không thể xem imgur tại nơi làm việc nhưng tôi chắc chắn rằng nó sẽ ổn!
Flounderer

Tôi đã từ chối lời đề nghị, vì tôi không thấy anh ấy đã liên lạc với bạn ở đây. Bạn có thể phê duyệt nó bằng cách đi đến hàng đợi chỉnh sửa được đề xuất, mặc dù.
gung - Phục hồi Monica

Ví dụ bạn cung cấp rất thú vị, nếu được chế tạo cẩn thận, nhưng tình huống tôi đưa ra thì tổng quát hơn (với các số không được chọn cẩn thận) và dựa trên 2 biến N (0,1). Ngay cả khi chúng tôi thay đổi thuật ngữ từ "giải thích" thành "chia sẻ", câu hỏi vẫn còn. Làm thế nào 2 biến ngẫu nhiên, mỗi biến có 4% phương sai được chia sẻ với biến thứ ba, được kết hợp theo một tổng đơn giản, theo công thức, có 25% phương sai được chia sẻ với biến thứ ba? Ngoài ra, nếu mục tiêu là dự đoán, có ứng dụng thực tế nào trong thế giới thực về sự gia tăng kỳ lạ này trong phương sai được chia sẻ không?
Joel W.

Chà, bất cứ nơi nào trong thiết bị điện tử khi bạn có (tiếng ồn lớn + tín hiệu yếu) + (tiếng ồn lớn) = tín hiệu yếu, bạn sẽ áp dụng điều này. Ví dụ, tai nghe chống ồn.
Flounderer
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.