Là hữu ích hoặc nguy hiểm không?


233

Tôi đã đọc lướt qua một số ghi chú bài giảng của Cosma Shalizi (đặc biệt, phần 2.1.1 của bài giảng thứ hai ), và được nhắc nhở rằng bạn có thể nhận được rất thấp ngay cả khi bạn có một mô hình tuyến tính hoàn toàn.R2

Để diễn giải ví dụ của Shalizi: giả sử bạn có một mô hình , trong đó được biết đến. Sau đó \ newcommand {\ Var} {\ mathrm {Var}} \ Var [Y] = a ^ 2 \ Var [x] + \ Var [\ epsilon] và lượng phương sai được giải thích là ^ 2 \ Var [X] , vì vậy R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ Var [\ epsilon]} . Điều này chuyển đến 0 là \ Var [X] \ rightarrow 0 và 1 là \ Var [X] \ rightarrow \ infty .mộtY=aX+ϵaVar[Y]=a2Var[x]+Var[ϵ]a2Var[X]R2=a2Var[x]a2Var[X]+Var[ϵ]Var[X]0Var[X]

Ngược lại, bạn có thể nhận được R2 ngay cả khi mô hình của bạn đáng chú ý là phi tuyến tính. (Bất cứ ai cũng có một ví dụ tốt?)

Vậy khi nào R2 là một thống kê hữu ích, và khi nào nên bỏ qua?


5
Xin lưu ý chủ đề bình luận liên quan trong một câu hỏi gần đây
whuber

36
Tôi không có gì thống kê để thêm vào các câu trả lời xuất sắc được đưa ra (đặc biệt là câu trả lời của @whuber) nhưng tôi nghĩ câu trả lời đúng là "R-squared: Hữu ích nguy hiểm". Giống như khá nhiều thống kê.
Peter Flom

32
Câu trả lời cho câu hỏi này là: "Có"
Fomite

Xem thống kê.stackexchange.com/a/265924/99274 để biết thêm câu trả lời.
Carl

Ví dụ từ tập lệnh không hữu ích lắm trừ khi bạn có thể cho chúng tôi biết là gì? Nếu cũng là một hằng, thì đối số của bạn là sai, vì sau đó Tuy nhiên, nếu không phải là hằng số , vui lòng vẽ với cho nhỏ và cho tôi biết đây là tuyến tính ........Var(aX+ϵ)ϵϵVar(aX+b)=a2Var(X)Y X Var ( X )ϵYXVar(X)
Dan

Câu trả lời:


264

Để giải quyết câu hỏi đầu tiên , hãy xem xét mô hình

Y=X+sin(X)+ε

với iid có nghĩa là không và phương sai hữu hạn. Khi phạm vi của (được coi là cố định hoặc ngẫu nhiên) tăng lên, chuyển sang 1. Tuy nhiên, nếu phương sai của là nhỏ (khoảng 1 hoặc ít hơn), dữ liệu sẽ "phi tuyến tính rõ rệt". Trong các ô, .X R 2 ε v một r ( ε ) = 1εXR2εvar(ε)=1

Phạm vi ngắn của X

Phạm vi rộng hơn của X

Ngẫu nhiên, một cách dễ dàng để có nhỏ là cắt các biến độc lập thành các phạm vi hẹp. Hồi quy (sử dụng chính xác cùng một mô hình ) trong mỗi phạm vi sẽ có thấp ngay cả khi hồi quy đầy đủ dựa trên tất cả dữ liệu có . Chiêm ngưỡng tình huống này là một bài tập thông tin và chuẩn bị tốt cho câu hỏi thứ hai.R 2 R 2R2R2R2

Cả hai lô sau đều sử dụng cùng một dữ liệu. Các cho hồi quy đầy đủ là 0,86. Các cho các slice (chiều rộng 1/2 từ -5/2 đến 5/2) là 0,16, 0,18, 0,07, 0,14, 0,08, 0,17, 0,20, 0,12, 0,01 , 0,00, đọc từ trái sang phải. Nếu bất cứ điều gì, sự phù hợp trở nên tốt hơn trong tình huống bị cắt bởi vì 10 dòng riêng biệt có thể phù hợp chặt chẽ hơn với dữ liệu trong phạm vi hẹp của chúng. Mặc dù cho tất cả các lát nằm dưới đầy đủ , nhưng sức mạnh của mối quan hệ, độ tuyến tính cũng như bất kỳ khía cạnh nào của dữ liệu (ngoại trừ phạm vi được sử dụng cho hồi quy) đã thay đổi.R 2 R 2 R 2 XR2R2R2R2X

Đám mây điểm với hồi quy đầy đủ

Đám mây điểm cắt với 10 hồi quy

(Người ta có thể phản đối rằng quy trình cắt này thay đổi phân phối của Điều đó đúng, nhưng nó vẫn tương ứng với việc sử dụng phổ biến nhất trong mô hình hiệu ứng cố định và cho thấy mức độ mà đang nói với chúng ta về phương sai của trong tình huống hiệu ứng ngẫu nhiên. Đặc biệt, khi bị hạn chế thay đổi trong một khoảng nhỏ hơn trong phạm vi tự nhiên của nó, thường sẽ giảm xuống.)R 2 R 2 X X R 2XR2R2XXR2

Vấn đề cơ bản với là nó phụ thuộc vào quá nhiều thứ (ngay cả khi được điều chỉnh theo hồi quy bội), nhưng đặc biệt nhất là về phương sai của các biến độc lập và phương sai của phần dư. Thông thường nó không cho chúng ta biết về "tuyến tính" hay "sức mạnh của mối quan hệ" hay thậm chí là "mức độ phù hợp" để so sánh một chuỗi các mô hình.R2

Hầu hết thời gian bạn có thể tìm thấy một thống kê tốt hơn . Để lựa chọn mô hình, bạn có thể tìm đến AIC và BIC; để thể hiện sự đầy đủ của một mô hình, hãy nhìn vào phương sai của phần dư. R2

Điều này cuối cùng đưa chúng ta đến câu hỏi thứ hai . Một tình huống trong đó có thể có một số sử dụng là khi các biến độc lập được đặt thành giá trị tiêu chuẩn, về cơ bản kiểm soát ảnh hưởng của phương sai của chúng. Thì thực sự là một ủy quyền cho phương sai của phần dư, được chuẩn hóa phù hợp. 1 - R 2R21R2


26
Thật là một câu trả lời tuyệt vời và đáp ứng tuyệt vời của @whuber
Peter Flom

AIC và BIC không điều chỉnh rõ ràng cho số lượng tham số ước tính? Nếu vậy, làm một so sánh và không điều chỉnh R ^ 2 có vẻ không công bằng. Vì vậy, tôi hỏi, phê bình của bạn có điều chỉnh R ^ 2 không? Có vẻ như nếu bạn bị phạt vì 'cắt lát', R ^ 2 đã điều chỉnh sẽ có thể quay lại để nói với bạn về mức độ phù hợp của mô hình.
russellpierce

7
@dr Bài phê bình của tôi áp dụng hoàn hảo cho điều chỉnh . Các trường hợp duy nhất có nhiều sự khác biệt giữa và được điều chỉnh là khi bạn đang sử dụng tải các tham số so với dữ liệu. Trong ví dụ cắt có gần 1.000 điểm dữ liệu và lát cắt chỉ thêm 18 tham số; các điều chỉnh cho thậm chí sẽ không ảnh hưởng đến vị trí thập phân thứ hai, ngoại trừ có thể ở các phân đoạn cuối chỉ có vài chục điểm dữ liệu: và nó sẽ hạ thấp chúng, thực sự củng cố đối số. R 2 R 2 R 2R2R2R2R2
whuber

5
Câu trả lời cho câu hỏi trong bình luận đầu tiên của bạn phải phụ thuộc vào mục tiêu của bạn và có một số cách để diễn giải "thử nghiệm cho mối quan hệ tuyến tính". Một là, bạn muốn kiểm tra xem hệ số có khác không. Một cách khác là, bạn muốn biết liệu có bằng chứng về sự phi tuyến tính hay không. (tự nó) không hữu ích lắm cho cả hai, mặc dù chúng ta biết rằng với nhiều dữ liệu có nghĩa là biểu đồ phân tán của chúng trông gần như tuyến tính - như ví dụ thứ hai của tôi hoặc như ví dụ @ macro. Đối với mỗi mục tiêu, có một thử nghiệm thích hợp và giá trị p liên quan của nó. R 2R2R2
whuber

4
Đối với câu hỏi thứ hai của bạn, chúng tôi phải tự hỏi những gì có thể có nghĩa là phù hợp tuyến tính "tốt nhất". Một ứng cử viên sẽ phù hợp để giảm thiểu tổng bình phương còn lại. Bạn có thể sử dụng một cách an toàn như một proxy cho việc này, nhưng tại sao không kiểm tra lỗi bình phương gốc (đã điều chỉnh)? Đó là một thống kê hữu ích hơn. R2
whuber

47

Ví dụ của bạn chỉ áp dụng khi biến phải có trong mô hình . Nó chắc chắn không áp dụng khi người ta sử dụng các ước tính bình phương nhỏ nhất thông thường. Để thấy điều này, lưu ý rằng nếu chúng tôi ước tính ô vuông nhỏ nhất trong ví dụ của bạn, chúng tôi sẽ nhận được:aX a

s 2 X =1

a^=1Ni=1NXiYi1Ni=1NXi2=1Ni=1NXiYisX2+X¯2
Trong đó là phương sai (mẫu) của và là giá trị trung bình (mẫu) củasX2=1Ni=1N(XiX¯)2XX¯=1Ni=1NXiX

a^2Var[X]=a^2sX2=(1Ni=1NXiYi)2sX2(sX2sX2+X¯2)2

Bây giờ thuật ngữ thứ hai luôn nhỏ hơn (bằng trong giới hạn), vì vậy chúng tôi nhận được giới hạn trên cho đóng góp cho từ biến :11R2X

a^2Var[X](1Ni=1NXiYi)2sX2

Và vì vậy trừ khi , chúng ta sẽ thực sự thấy là (vì tử số sẽ về 0, nhưng mẫu số sẽ đi vào ). Ngoài ra, chúng tôi có thể nhận được hội tụ đến một cái gì đó trong khoảng từ đến tùy thuộc vào mức độ nhanh chóng của hai thuật ngữ. Bây giờ, thuật ngữ trên thường sẽ phân kỳ nhanh hơn nếu nên có trong mô hình và chậm hơn nếu không nên có trong mô hình. Trong cả hai trường hợp đi đúng hướng.(1Ni=1NXiYi)2R20sX2Var[ϵ]>0R201sX2XXR2

Và cũng lưu ý rằng đối với bất kỳ tập dữ liệu hữu hạn nào (tức là dữ liệu thực), chúng ta không bao giờ có thể có trừ khi tất cả các lỗi đều chính xác bằng không. Điều này về cơ bản chỉ ra rằng là một số đo tương đối, chứ không phải là một số đo tuyệt đối. Vì trừ khi thực sự bằng , chúng ta luôn có thể tìm thấy một mô hình phù hợp tốt hơn. Đây có lẽ là khía cạnh "nguy hiểm" của ở chỗ vì nó được chia tỷ lệ từ đến , có vẻ như chúng ta có thể can thiệp nó theo nghĩa tuyệt đối.R2=1R2R21R201

Có lẽ sẽ hữu ích hơn khi xem xét giảm nhanh như thế nào khi bạn thêm các biến vào mô hình. Và cuối cùng, nhưng không kém phần quan trọng, không bao giờ được bỏ qua trong lựa chọn biến, vì là một thống kê đủ cho lựa chọn biến - nó chứa tất cả thông tin về lựa chọn biến trong dữ liệu. Điều duy nhất cần thiết là chọn mức giảm trong tương ứng với "điều chỉnh các lỗi" - thường phụ thuộc vào kích thước mẫu và số lượng biến.R2R2R2


4
+1 Rất nhiều điểm hay. Các tính toán thêm những hiểu biết định lượng cho các câu trả lời trước.
whuber

27

Nếu tôi có thể thêm một ví dụ về khi nguy hiểm. Cách đây nhiều năm, tôi đã làm việc trên một số dữ liệu sinh trắc học và còn trẻ và dại dột, tôi rất vui khi tìm thấy một số giá trị có ý nghĩa thống kê cho các hồi quy ưa thích mà tôi đã xây dựng bằng các hàm từng bước. Chỉ sau khi nhìn lại sau phần trình bày của tôi trước đông đảo khán giả quốc tế, tôi mới nhận ra rằng với sự khác biệt lớn của dữ liệu - kết hợp với sự biểu hiện nghèo nàn của mẫu đối với dân số, của 0,02 hoàn toàn vô nghĩa ngay cả khi nó "có ý nghĩa thống kê" ...R2R2R2

Những người làm việc với số liệu thống kê cần phải hiểu dữ liệu!


15
Không có thống kê là nguy hiểm nếu bạn hiểu ý nghĩa của nó. Ví dụ của Sean không có gì đặc biệt với R vuông, đó là vấn đề chung của việc say mê với ý nghĩa thống kê. Khi chúng tôi làm kiểm tra thống kê trong thực tế, chúng tôi chỉ quan tâm đến sự khác biệt có ý nghĩa. Hai quần thể không bao giờ có phân phối giống hệt nhau. Nếu chúng gần bằng nhau, chúng tôi không quan tâm. Với kích thước mẫu rất lớn, chúng tôi có thể phát hiện những khác biệt nhỏ không quan trọng. Đó là lý do tại sao trong tư vấn nghiên cứu y học của tôi, tôi nhấn mạnh sự khác biệt giữa ý nghĩa lâm sàng và thống kê.
Michael Chernick

11
Ban đầu khách hàng của tôi thường mỏng rằng ý nghĩa thống kê là mục tiêu của nghiên cứu. Họ cần phải được chỉ ra rằng đó không phải là trường hợp.
Michael Chernick

Một có ý nghĩa thống kê ở mức 0,02 chỉ đơn giản có nghĩa là bạn có đủ dữ liệu để khẳng định rằng không phải là 0. Nhưng nó gần bằng 0. Vì vậy, có rất ít mối quan hệ giữa các biến độc lập và biến phụ thuộc. R2R2
Michael Chernick

1
Hoàn toàn đồng ý Michael. Một chút kiến ​​thức về thống kê có thể nguy hiểm! :) Dựa trên cái nhìn sâu sắc đó nhiều năm trước, tôi đã làm việc chăm chỉ để không lặp lại sai lầm ngớ ngẩn đó bằng cách nghiên cứu nhiều để hiểu rõ hơn về thống kê thực sự có ý nghĩa gì. Bằng thạc sĩ và tiến sĩ về thống kê và tôi vẫn nghĩ rằng mình còn một chặng đường dài để đi học!
Sean

Cảm ơn Sean. Tôi đánh giá cao ý kiến ​​và sự khiêm tốn của bạn.
Michael Chernick

16

Khi bạn có một yếu tố dự báo đơn là chính xác hiểu là tỷ lệ thay đổi trong có thể được giải thích bởi các tuyến mối quan hệ với . Giải thích này phải được ghi nhớ khi nhìn vào giá trị của .R2YXR2

Bạn chỉ có thể nhận được từ mối quan hệ phi tuyến tính khi mối quan hệ gần với tuyến tính. Ví dụ: giả sử trong đó và . Nếu bạn làm tính toánR2Y=eX+εXUniform(2,3)εN(0,1)

R2=cor(X,eX+ε)2

bạn sẽ thấy nó ở khoảng (tôi chỉ xấp xỉ điều này bằng mô phỏng) mặc dù mối quan hệ rõ ràng không phải là tuyến tính. Lý do là trông rất giống một hàm tuyến tính trong khoảng ..914eX(2,3)


1
Đối với những nhận xét dưới đây của Erik và Macro tôi không nghĩ có ai đưa ra cho tôi và có lẽ tốt hơn là có một câu trả lời kết hợp thay vì ba câu trả lời riêng biệt nhưng tại sao nó lại quan trọng đến mức có quá nhiều cuộc thảo luận xoay quanh bạn viết những thứ và nơi bạn viết nó thay vì hợp nhất với những gì được nói?
Michael Chernick

8
@MichaelCécick, tôi không nghĩ có cuộc thảo luận "nhiều" về cách người ta viết mọi thứ. Các nguyên tắc chúng tôi đã cố gắng giúp bạn hiểu rõ hơn về "nếu mọi người đã làm điều đó, trang web này sẽ rất vô tổ chức và khó tuân theo". Có vẻ như có rất nhiều cuộc thảo luận về những điều này, nhưng đó có lẽ chỉ vì bạn là người tham gia rất tích cực kể từ khi bạn tham gia, điều này thật tuyệt, vì bạn rõ ràng mang rất nhiều thứ vào bàn. Nếu bạn muốn nói nhiều hơn về vấn đề này, hãy xem xét bắt đầu một chủ đề trên meta thay vì thảo luận bình luận dưới câu trả lời không liên quan của tôi :)
Macro

Điều gì hạnh phúc nếu một người mở rộng hỗ trợ phân phối đồng đều trong ví dụ của bạn?
Qbik

Khi tôi có được kinh nghiệm trên trang web này, tôi phải đồng ý với Macro rằng điều quan trọng là phải ngắn gọn và hợp nhất.
Michael Chernick

15

Một tình huống bạn muốn tránh là hồi quy bội, trong đó việc thêm các biến dự đoán không liên quan vào mô hình trong một số trường hợp có thể làm tăng . Điều này có thể được giải quyết bằng cách sử dụng giá trị điều chỉnh thay vào đó, được tính nhưR2R2R2

npR¯2=1(1R2)n1np1 trong đó là số lượng mẫu dữ liệu và là số lượng hồi quy không tính thuật ngữ không đổi .np


21
Lưu ý rằng việc thêm các biến không liên quan được đảm bảo để tăng (không chỉ trong "một số trường hợp") trừ khi các biến đó hoàn toàn trùng khớp với các biến hiện có. R2
whuber

6
  1. Một ví dụ điển hình cho với hàm phi tuyến là hàm bậc hai bị giới hạn trong khoảng . Với 0 nhiễu, nó sẽ không có phương 1 nếu bạn có 3 điểm trở lên vì chúng sẽ không khớp hoàn toàn trên một đường thẳng. Nhưng nếu các điểm thiết kế nằm rải rác đồng đều trên thì bạn nhận được sẽ cao có lẽ đáng ngạc nhiên như vậy. Điều này có thể không phải là trường hợp nếu bạn có nhiều điểm gần 0 và rất nhiều điểm gần 1 với rất ít hoặc không có gì ở giữa.R2y=x2[0,1]R2[0,1]R2

  2. R2 sẽ kém trong trường hợp tuyến tính hoàn hảo nếu thuật ngữ nhiễu có phương sai lớn. Vì vậy, bạn có thể lấy mô hình về mặt kỹ thuật là một mô hình tuyến tính hoàn hảo nhưng để phương sai trong e có xu hướng vô cùng và bạn sẽ có về 0. Kiểm tra sự thiếu hụt của nó R vuông sẽ đo tỷ lệ phần trăm của phương sai được giải thích bởi dữ liệu và do đó, nó đo lường mức độ phù hợp. Một cao có nghĩa là một sự phù hợp tốt nhưng chúng tôi vẫn phải cẩn thận về sự phù hợp tốt được gây ra bởi quá nhiều thông số cho kích thước của tập dữ liệu mà chúng tôi có.Y=x+ϵR2R2

  3. Trong tình huống hồi quy bội có vấn đề quá mức. Thêm biến và sẽ luôn tăng. điều chỉnh khắc phục điều này phần nào vì nó tính đến số lượng tham số.R2R2

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.