R bình phương có nghĩa là gì?


17

Giả sử tôi có một số dữ liệu và sau đó tôi khớp dữ liệu với một mô hình (hồi quy phi tuyến tính). Sau đó, tôi tính R bình phương ( ).R2

Khi R bình phương là âm, điều đó có nghĩa là gì? Điều đó có nghĩa là mô hình của tôi là xấu? Tôi biết phạm vi của có thể là [-1,1]. Khi R 2 bằng 0, điều đó có nghĩa là gì?R2R2


4
Điều đó có nghĩa là bạn đã làm sai điều gì đó vì nằm trong [ 0 , 1 ] theo định nghĩa. Mặt khác, R 2 được điều chỉnh có thể âm, mà bạn có thể giả định một cách an toàn có nghĩa là mô hình của bạn rất phù hợp với dữ liệu. Khi R 2 là chính xác bằng không này có nghĩa rằng ˉ y chỉ là tốt một dự đoán của y như dòng vuông hồi quy nhất chính nó. R2[0,1]R2 R2y¯y
DSaxton

1
Điều này có thể xảy ra đối với hồi quy mà không bị chặn, xem ví dụ: stats.stackexchange.com/questions/164586/ mẹo



@gung Tôi định đề nghị đây có thể là một bản sao của câu hỏi đó ... bạn có nghĩ chúng đủ khác biệt không? (Nếu bất cứ điều gì câu hỏi này có vẻ độc đáo hơn người kia vì không có cú pháp mất tập trung SPSS, nhưng câu trả lời ở các chủ đề khác là rất tốt và dường như để trang trải câu hỏi này quá.)
cá bạc

Câu trả lời:


37

có thể âm, nó chỉ có nghĩa là:R2

  1. Mô hình phù hợp với dữ liệu của bạn rất tệ
  2. Bạn đã không đặt chặn

Cho người dân nói rằng là giữa 0 và 1, đây không phải là trường hợp. Mặc dù giá trị âm cho một cái gì đó có từ 'bình phương' trong đó có vẻ như nó phá vỡ các quy tắc toán học, nó có thể xảy ra trong mô hình R 2 mà không bị chặn. Để hiểu tại sao, chúng ta cần xem R 2 được tính như thế nào .R2R2R2

Điều này hơi dài - Nếu bạn muốn câu trả lời mà không hiểu nó, hãy bỏ qua đến cuối. Mặt khác, tôi đã cố viết điều này bằng những từ đơn giản.

Trước tiên, hãy xác định 3 biến: , T S SE S S .RSSTSSESS

Tính toán RSS :

Với mỗi biến độc lập , chúng ta có biến phụ thuộc y . Chúng tôi vẽ một đường thẳng phù hợp nhất, dự đoán giá trị của y cho mỗi giá trị của x . Hãy gọi các giá trị của y dòng tiên đoán y . Lỗi giữa những gì dòng của bạn dự đoán và giá trị y thực tế có thể được tính là phép trừ. Tất cả những khác biệt này được bình phương và cộng lại, mang đến cho các dư Sum của Squares R S S .xyyxyy^yRSS

Đưa đó vào một phương trình, RSS=(yy^)2

Tính toán TSS :

Chúng ta có thể tính giá trị trung bình của , được gọi là ˉ y . Nếu chúng ta vẽ ˉ y , nó chỉ là một đường ngang qua các dữ liệu vì nó là hằng số. Những gì chúng ta có thể làm gì với nó mặc dù, là trừ ˉ y (giá trị trung bình của y ) từ mọi giá trị thực tế của y . Kết quả là bình phương và vào với nhau, mang đến cho tổng tổng các bình phương T S S .yy¯y¯y¯yyTSS

Đưa đó vào một phương trình TSS=(yy¯)2

Tính toán ESS :

Sự khác biệt giữa y (các giá trị của y được dự đoán bởi dòng) và giá trị trung bình ˉ y được bình phương và bổ sung. Đây là tổng Giải thích của hình vuông, bằng Σ ( y - ˉ y ) 2y^yy¯(y^y¯)2

Hãy nhớ rằng, , nhưng chúng ta có thể thêm một + y - y vào nó, bởi vì nó hủy bỏ bản thân ra. Do đó, T S S = Σ ( y - y + y - ˉ y ) 2 . Mở rộng các dấu ngoặc, chúng tôi nhận T S S = Σ ( y - y ) 2 +TSS=(yy¯)2+y^y^TSS=(yy^+y^y¯)2TSS=(yy^)2+2(yy^)(y^y¯)+(y^y¯)2

Khi và chỉ khi đường được vẽ với một đánh chặn, sau đây luôn luôn là đúng: . Do đó, T S S = Σ ( y - y ) 2 + Σ ( y - ˉ y ) 2 , mà bạn có thể nhận thấy chỉ có nghĩa rằng T S S = R S S +2(yy^)(y^y¯)=0TSS=(yy^)2+(y^y¯)2 . Nếu chúng ta chia tất cả các số hạng cho T S S và sắp xếp lại, chúng ta sẽ nhận được 1 - R S STSS=RSS+ESSTSS .1RSSTSS=ESSTSS

Đây là phần quan trọng :

được định nghĩa là bao nhiêu phương sai được giải thích bởi mô hình của bạn (mô hình của bạn tốt như thế nào). Ở dạng phương trình, đó là R 2 = 1 - R S SR2 . Nhìn có quen không? Khi đường được vẽ bằng một phần chặn, chúng ta có thể thay thế dòng này làR2=ESSR2=1RSSTSS . Vì cả tử số và quỷ đều là tổng của bình phương,R2phải dương.R2=ESSTSSR2

NHƯNG

Khi chúng ta không chỉ định một đánh chặn, không nhất thiết phải bằng 0 . Điều này có nghĩa rằng T S S = R S S + E S S + 2 * Σ ( y - y ) ( y - ˉ y ) .2(yy^)(y^y¯)0TSS=RSS+ESS+2(yy^)(y^y¯)

Chia tất cả các điều khoản cho , chúng ta nhận được 1 - R S STSS .1RSSTSS=ESS+2(yy^)(y^y¯)TSS

Cuối cùng, chúng tôi thay thế để có được . Lần này, tử số có một số hạng trong đó không phải là tổng bình phương, vì vậy nó có thể âm. Điều này sẽ làm choR2âm tính. Khi nào điều này sẽ xảy ra? 2*Σ(y - y )( y - ˉ y )sẽ là tiêu cực khiy - y là tiêu cực và y - ˉ y là tích cực, hoặc ngược lại. Điều này xảy ra khi các đường kẻ ngang của ˉ y thực sự giải thích các dữ liệu tốt hơn so với các dòng phù hợp nhất.R2=ESS+2(yy^)(y^y¯)TSSR22(yy^)(y^y¯)yy^y^y¯y¯

Đây là một ví dụ phóng đại về thời điểm âm tính (Nguồn: Đại học Houston Clear Lake)R2

Một ví dụ phóng đại về thời điểm R ^ 2 âm tính (Nguồn: Đại học Houston Clear Lake)

Đơn giản thôi:

  • Khi , một đường ngang giải thích dữ liệu tốt hơn mô hình của bạn.R2<0

Bạn cũng đã hỏi về .R2=0

  • Khi , một đường ngang giải thích dữ liệu bằng nhau cũng như mô hình của bạn.R2=0

Tôi khen bạn đã làm cho nó thông qua đó. Nếu bạn thấy điều này hữu ích, bạn cũng nên nêu lên câu trả lời của fcop ở đây mà tôi phải tham khảo, bởi vì đã được một lúc rồi.


5
2(yy^)(y^y¯)=0

6

Không có câu trả lời nào cho đến nay là hoàn toàn chính xác, vì vậy tôi sẽ cố gắng đưa ra hiểu biết của mình về R-Squared. Tôi đã đưa ra một lời giải thích chi tiết hơn về điều này trên bài đăng trên blog của tôi ở đây "R-Squared" là gì "

Lỗi bình phương tổng

Mục tiêu của hồi quy bình phương tối thiểu thông thường là lấy một dòng làm giảm thiểu sai số bình phương tổng. Dòng mặc định có lỗi bình phương tổng tối thiểu là một đường nằm ngang thông qua giá trị trung bình. Về cơ bản, nếu bạn không thể làm tốt hơn, bạn chỉ có thể dự đoán giá trị trung bình và điều đó sẽ cung cấp cho bạn lỗi bình phương tổng tối thiểu

horizontal line through the mean

R-Squared là một cách đo lường mức độ tốt hơn nhiều so với đường trung bình bạn đã thực hiện dựa trên lỗi bình phương tổng. Phương trình của R-Squared là

equation for r-squared

Bây giờ SS Regression và SS Total đều là tổng của các số hạng bình phương. Cả hai luôn luôn tích cực. Điều này có nghĩa là chúng tôi đang lấy 1 và trừ đi một giá trị dương. Vì vậy, giá trị R-Squared tối đa là dương 1, nhưng tối thiểu là vô cực âm. Vâng, điều đó là chính xác, phạm vi bình phương R là giữa -infality và 1, không phải -1 và 1 và không phải 0 và 1

Sum bình phương lỗi là gì

Lỗi bình phương Sum đang nhận lỗi tại mọi điểm, bình phương nó và thêm tất cả các ô vuông. Đối với tổng lỗi, nó sử dụng đường ngang thông qua giá trị trung bình, bởi vì điều đó đưa ra lỗi bình phương tổng thấp nhất nếu bạn không có bất kỳ thông tin nào khác, tức là không thể thực hiện hồi quy.

enter image description here

Như một phương trình, đây là

sum squared total error equation

Bây giờ với hồi quy, mục tiêu của chúng tôi là làm tốt hơn giá trị trung bình. Ví dụ, đường hồi quy này sẽ đưa ra lỗi bình phương tổng thấp hơn so với sử dụng đường ngang.

enter image description here

Phương trình cho tổng bình phương lỗi bình phương là đây

enter image description here

Lý tưởng nhất là bạn sẽ không có lỗi hồi quy bằng 0, tức là đường hồi quy của bạn sẽ hoàn toàn khớp với dữ liệu. Trong trường hợp đó, bạn sẽ nhận được giá trị R-Squared bằng 1

r squared value of 1

Tiêu cực R bình phương

Tất cả các thông tin trên là khá chuẩn. Bây giờ những gì về R-Squared tiêu cực?

Vâng, hóa ra không có lý do gì mà phương trình hồi quy của bạn phải đưa ra sai số bình phương tổng thấp hơn giá trị trung bình. Người ta thường nghĩ rằng nếu bạn không thể đưa ra dự đoán tốt hơn giá trị trung bình, bạn sẽ chỉ sử dụng giá trị trung bình, nhưng không có gì buộc đó là nguyên nhân. Ví dụ, bạn có thể dự đoán trung vị cho tất cả mọi thứ.

Trong thực tế, với hồi quy bình phương nhỏ nhất bình thường, thời gian phổ biến nhất để nhận giá trị R-Squared âm là khi bạn buộc một điểm mà đường hồi quy phải đi qua. Điều này thường được thực hiện bằng cách đặt chặn, nhưng bạn có thể buộc đường hồi quy qua bất kỳ điểm nào.

Khi bạn thực hiện điều đó, đường hồi quy đi qua điểm đó và cố gắng nhận được bình phương tổng sai số tối thiểu trong khi vẫn đi qua điểm đó.

fixed point

Theo mặc định, các phương trình hồi quy sử dụng trung bình x và trung bình y là điểm mà đường hồi quy đi qua. Nhưng nếu bạn buộc nó đi qua một điểm cách xa đường hồi quy thông thường thì bạn có thể nhận được tổng bình phương lỗi cao hơn so với sử dụng đường ngang

Trong hình ảnh bên dưới, cả hai đường hồi quy đã buộc phải có ay chặn bằng 0. Điều này gây ra bình phương R âm cho dữ liệu được bù xa so với gốc.

negative r squared

Đối với tập hợp điểm trên cùng, điểm màu đỏ, đường hồi quy là đường hồi quy tốt nhất có thể cũng đi qua điểm gốc. Nó chỉ xảy ra rằng đường hồi quy đó tệ hơn so với sử dụng đường ngang và do đó cho R-Squared âm.

Không xác định R-Squared

Có một trường hợp đặc biệt không ai nhắc đến, nơi bạn có thể nhận được R-Squared không xác định. Đó là nếu dữ liệu của bạn hoàn toàn nằm ngang, thì tổng bình phương lỗi của bạn bằng không. Kết quả là bạn sẽ có một số 0 chia cho số 0 trong phương trình bình phương R, không xác định.

enter image description here

enter image description here


một câu trả lời rất sống động, muốn xem nhiều câu trả lời kiểu này hơn!
Ben

0

Như người bình luận trước đã lưu ý, r ^ 2 nằm trong khoảng [0,1], không phải [-1, + 1], do đó không thể âm. Bạn không thể bình phương một giá trị và nhận được một số âm. Có lẽ bạn đang nhìn vào r, sự tương quan? Nó có thể nằm giữa [-1, + 1], trong đó số 0 có nghĩa là không có mối quan hệ giữa các biến, -1 có nghĩa là có một mối quan hệ phủ định hoàn hảo (khi một biến tăng, biến còn lại giảm) và +1 là dương hoàn hảo mối quan hệ (cả hai biến tăng hoặc giảm đồng thời).

Nếu thực sự bạn đang nhìn vào r ^ 2, thì, như người bình luận trước mô tả, có lẽ bạn đang thấy r ^ 2 đã điều chỉnh, chứ không phải r ^ 2 thực tế. Xem xét ý nghĩa của thống kê: Tôi dạy thống kê khoa học hành vi và cách dễ nhất mà tôi đã học để dạy học sinh của mình về ý nghĩa của r ^ 2 là "giải thích phương sai%". Vì vậy, nếu bạn có r ^ 2 = 0,5, mô hình giải thích 50% biến thể của biến phụ thuộc (kết quả). Nếu bạn có r ^ 2 âm, điều đó có nghĩa là mô hình giải thích% âm của biến kết quả, đây không phải là một gợi ý hợp lý theo trực giác. Tuy nhiên, điều chỉnh r ^ 2 sẽ xem xét kích thước mẫu (n) và số lượng dự đoán (p). Một công thức để tính toán nó ở đây. Nếu bạn có r ^ 2 rất thấp, thì rất dễ để có được các giá trị âm. Cấp, một điều chỉnh tiêu cực r ^ 2 không có ý nghĩa trực quan hơn so với r ^ 2 thông thường, nhưng như người bình luận trước đó nói, nó chỉ có nghĩa là mô hình của bạn rất kém, nếu không nói là vô dụng.


3
Về phần trăm phương sai được giải thích, có lẽ nếu mô hình quá kém để tăng phương sai (ESS> TSS), người ta có thể bị âmR2, Ở đâu R2được định nghĩa là% của phương sai được giải thích thay vì tương quan bình phương giữa giá trị thực và giá trị được trang bị. Điều này có thể không xảy ra trong hồi quy với đánh chặn được ước tính bởi OLS, nhưng nó có thể xảy ra trong hồi quy mà không bị chặn hoặc có lẽ các trường hợp khác.
Richard Hardy

4
R2 là không thể <0 trong mẫu nhưng có thể âm tính khi tính ra khỏi mẫu , tức là trên mẫu giữ lại sau khi sửa tất cả các hệ số hồi quy. Như đã giải thích ở trên, điều này thể hiện tồi tệ hơn dự đoán ngẫu nhiên.
Frank Harrell

@FrankHarrell, bạn có chắc chắn rằng nó cần phải ở trong mẫu không? Cấp, bạn phải bỏ qua dữ liệu khá mạnh để tạo ra một mô hình tồi tệ hơn trung bình, nhưng tôi không hiểu tại sao bạn không thể làm điều này chỉ với dữ liệu trong mẫu.
Matt Krause

Tôi giả sử trong mẫu có nghĩa là mẫu mà hệ số được ước tính. Sau đó, không thể là tiêu cực.
Frank Harrell

1
@FrankHarrell, Giả sử mô hình thực sự tàn bạo - bạn phù hợp với một số chức năng không bị chặn nhưtội(ω*x+φ)đến một đường chéo. Không nênR2ở đây cũng âm tính, ngay cả đối với dữ liệu trong mẫu? Matlab cho tôi một số âm khá lớn khi tôi làm điều đó ...
Matt Krause
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.