Mối quan hệ giữa


39

Hãy nói rằng tôi có mảng hai 1 chiều, và . Mỗi điểm chứa 100 điểm dữ liệu. là dữ liệu thực tế và là dự đoán mô hình. Trong trường hợp này, giá trị sẽ là: Trong khi đó, giá trị này sẽ bằng giá trị bình phương của hệ số tương quan, Bây giờ nếu tôi trao đổi hai: là dữ liệu thực tế và là dự đoán mô hình. Từ phương trình , bởi vì hệ số tương quan không quan tâm đến trước,một1một2một1một2R2

R2= =1-SSreSSStot  (1).
R2= =(Hệ số tương quan)2(2).
một2một1(2)R2Giá trị sẽ giống nhau. Tuy nhiên, từ phương trình , , các giá trị sẽ thay đổi, vì đã thay đổi nếu chúng ta chuyển từ để ; trong khi đó, không thay đổi.S S t o t = i ( y i - ˉ y ) 2 R 2 S S t o t y a 1 a 2 S S r e s = i ( f i - ˉ y ) 2(1)SStot= =Σtôi(ytôi-y¯)2R2SStotya1a2SSres=i(fiy¯)2

Câu hỏi của tôi là: Làm thế nào những điều này có thể mâu thuẫn với nhau?

Chỉnh sửa :

  1. Tôi đã tự hỏi rằng, mối quan hệ trong Eq. (2) vẫn đứng vững, nếu đó không phải là hồi quy tuyến tính đơn giản, nghĩa là mối quan hệ giữa IV và DV không phải là tuyến tính (có thể là hàm mũ / log)?

  2. Mối quan hệ này sẽ vẫn đứng vững, nếu tổng các lỗi dự đoán không bằng không?


Tôi thấy bản trình bày này rất hữu ích và không mang tính kỹ thuật: google.com/ Từ
ihadanny

Câu trả lời:


19

Điều này đúng là sẽ thay đổi ... nhưng bạn đã quên thực tế là tổng hồi quy của bình phương cũng sẽ thay đổi. Vì vậy, hãy xem xét mô hình hồi quy đơn giản và biểu thị Hệ số tương quan là r 2 x y = S 2 x ySStot , trong đó tôi đã sử dụng chỉ số phụxyđể nhấn mạnh thực tế rằngxlà biến độc lập vàylà biến phụ thuộc. Rõ ràng,r2 x y không thay đổi nếu bạn hoán đổixvớiy. Chúng ta có thể dễ dàng chỉ ra rằngSSRxy=Syy(R2 x y ), trong đóSSRxylà tổng hồi quy của bình phương và rxy2= =Sxy2SxxSyyxyxyrxy2xySSRxy= =Syy(Rxy2)SSRxy là tổng tổng bình phương trong đó x là độc lập và y là biến phụ thuộc. Do đó: R 2 x y = S S R x ySyyxytrong đóSSExylà tổng bình phương tương ứng của bình phương trong đóxlà độc lập vàylà biến phụ thuộc. Lưu ý rằng trong trường hợp này, chúng ta cóSSExy=b2 x y Sxxvớib=Sxy

Rxy2= =SSRxySyy= =Syy-SSExySyy,
SSExyxySSExy= =bxy2Sxx (Xem ví dụ: Phương trình (34) - (41)tại đây.) Do đó:R2 x y =Syy- S 2 x yb= =SxySxxRõ ràng phương trình trên là đối xứng vớixy. Nói cách khác:R2 x y =R2 y x . Để tóm tắt khi bạn thay đổixvớiytrong mô hình hồi quy đơn giản, cả tử số và mẫu số củaR2 x y =SSRxy
Rxy2= =Syy-Sxy2Sxx2.SxxSyy= =SyySxx-Sxy2Sxx.Syy.
xy
Rxy2= =Ryx2.
xy sẽ thay đổi theo cáchR2 x y =R2 y x .Rxy2=SSRxySyyRxy2= =Ryx2.

Cảm ơn bạn rất nhiều! Tôi nhận thấy rằng đây có thể là nơi tôi đã sai: chỉ đứng nếu 1) dự đoán mô hình là một đường thẳng và 2) giá trị trung bình của dự đoán mô hình bằng với giá trị trung bình của các điểm mẫu. Nếu mối quan hệ giữa DV và IV không phải là một đường thẳng hoặc tổng các lỗi dự đoán là khác không, mối quan hệ sẽ không đứng vững. Bạn có thể vui lòng cho tôi biết liệu điều này là chính xác? R2=r2
Shawn Wang

1
Tôi nghĩ về điều này bởi vì bạn đã sử dụng , trong khi tôi đang sử dụng phương trình tôi đã đăng trong OP. Hai phương trình này tương đương với nhau chỉ khi tổng các lỗi dự đoán bằng không. Do đó, trong OP của tôi, S S r e s = i ( f i - ˉ y ) 2 không thay đổi trong khi S S t o t thay đổi, và do đó R 2R2=SSreg/SStotSSres=i(fiy¯)2SStotR2bị thay đổi.
Shawn Wang

Bạn có tình cờ có một tài liệu tham khảo về cách giải quyết vấn đề này cho trường hợp chung của Gaussian p-variate không?
jmb

26

Một cách để giải thích các hệ số xác định là nhìn vào nó như là tương quan Hệ số Squared Pearson giữa các giá trị quan sát y i và các giá trị được trang bị y i .R2yiy^i

Bằng chứng đầy đủ về cách lấy hệ số xác định R2 từ Hệ số tương quan Squared Pearson giữa các giá trị quan sát yi và các giá trị được trang bị y ^ i có thể được tìm thấy theo liên kết sau:

http: // ec economtheoryblog.wordpress.com/2014/11/05/proof/

Trong mắt tôi nó khá dễ hiểu, chỉ cần làm theo các bước duy nhất. Tôi đoán nhìn vào nó là điều cần thiết để hiểu làm thế nào thực tế giữa hai nhân vật quan trọng thực sự hoạt động.


6

Trong trường hợp hồi quy tuyến tính đơn giản chỉ có một yếu tố dự đoán . Nhưng trong nhiều hồi quy tuyến tính có nhiều hơn một yếu tố dự đoán, khái niệm tương quan giữa các yếu tố dự đoán và phản ứng không tự động mở rộng. Công thức được: R2=r2=Corr(x,y)2

R2=Corr(yestimated,yobserved)2

Bình phương của mối tương quan giữa đáp ứng và mô hình tuyến tính được trang bị.


5

@Stat đã cung cấp một câu trả lời chi tiết. Trong câu trả lời ngắn gọn của tôi, tôi sẽ trình bày ngắn gọn theo một cách khác nhau về sự tương đồng và khác biệt giữa r 2 .rr2

là hệ số hồi quy chuẩn hóabetacủa Y theo X hoặc của X theo Y và do đó, đây là thước đokích thước hiệu ứng(tương hỗ). Điều này được thấy rõ nhất khi các biến là nhị phân. Sau đó, r , ví dụ, 30 có nghĩa là 30% trường hợp sẽ thay đổi giá trị của nó thành ngược lại trong một biến khi biến khác thay đổi giá trị của nó sang ngược lại.rYXXYr.30

Mặt khác, r 2 là biểu thức củatỷ lệ đồng biếntrong tổng biến thiên: r 2 = ( c o vr2 . Lưu ý rằng đây là sản phẩm có hai tỷ lệ, hay nói chính xác hơn là hai tỷ lệ (tỷ lệ có thể> 1). Nếu lỏng lẻo ngụ ý bất kỳ tỷ lệ hoặc tỷ lệ nào là xác suất gần đúng hoặc xu hướng, thìr2biểu thị "xác suất chung (xu hướng)". Khác và như biểu hiện giá trị sản phẩm chung của hai tỷ lệ (hoặc tỷ lệ) sẽ là trung bình hình học của họ,r2=(covσxσy)2=|cov|σx2|cov|σy2r2 , mà là rấtr.prop*propr

(Hai tỷ lệ là chất nhân, không phụ gia, để nhấn mạnh ý tưởng rằng họ cộng tác và không thể bù đắp cho nhau, trong tinh thần đồng đội của họ. Họ phải được nhân giống vì tầm quan trọng của phụ thuộc vào cả độ lớn σ 2 xσ 2 y và, một cách phù hợp, c o v phải được chia hai lần một lần - để tự chuyển đổi thành "tỷ lệ phương sai được chia sẻ" thích hợp. Nhưng c o v , "phương sai chéo", chia sẻ cùng một phép đo đơn vị với cả hai σ 2 xσ 2covσx2σy2covcovσx2 , "phương sai tự",chứ không phảivớiσxσy, "phương sai lai"; đó là lý do tại saor2, chứ không phảir, là đầy đủ hơn như "tỷ lệ phương sai được chia sẻ".)σy2σxσyr2r

Vì vậy, bạn thấy rằng ý nghĩa của r 2 là thước đo số lượng của hiệp hội là khác nhau (cả hai ý nghĩa hợp lệ), nhưng vẫn không có hệ số này mâu thuẫn với nhau. Và cả hai đều như nhau cho dù bạn dự đoán Y ~ X hay X ~ Y .rr2Y~XX~Y


R2R2R2

Hệ số xác định hoặc bình phương R là một khái niệm rộng hơn r ^ 2, chỉ nói về hồi quy tuyến tính đơn giản. Vui lòng đọc wikipedia en.wikipedia.org/wiki/Coe enough_of_determination .
ttnphns

Cảm ơn một lần nữa! Điều đó tôi hiểu. Câu hỏi của tôi là: đối với các hồi quy phức tạp hơn, tôi vẫn có thể bình phương giá trị r để lấy hệ số xác định không?
Shawn Wang

1
Đối với "hồi quy phức tạp", bạn có R-vuông, nhưng bạn không nhận được r.
ttnphns

1

R2=r2R2

x=rnorm(1000); y=rnorm(1000)              # store random data
summary(lm(y~x))                          # fit a linear regression model (a)
summary(lm(x~y))                          # swap variables and fit the opposite model (b)
z=lm(y~x)$fitted.values; summary(lm(y~z)) # substitute predictions for IV in model (a)

R2R2

R2r2R2rρ


1
R2=0.1468SSR>SSTR2R2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.