Do mối tương quan hoặc hệ số xác định có liên quan đến tỷ lệ phần trăm của các giá trị nằm trong một đường hồi quy?


12

Tương quan, r , là thước đo liên kết tuyến tính giữa hai biến. Hệ số xác định, r2 , là thước đo mức độ biến thiên của một biến có thể được "giải thích" bằng biến thể trong biến khác.

Ví dụ: nếu là tương quan giữa hai biến, thì r 2 = 0,64 . Do đó, 64% sự biến đổi trong một có thể được giải thích bằng sự khác biệt trong cái khác. Đúng?r=0.8r2=0.64

Câu hỏi của tôi là, ví dụ đã nêu, một trong những câu sau đây có đúng không?

  1. 64% giá trị nằm dọc theo đường hồi quy
  2. 80% giá trị nằm dọc theo đường hồi quy

Thuật ngữ "rơi cùng" là không chính xác. Dường như ít nhất một số câu trả lời giải thích nó là "nằm chính xác", và câu trả lời rõ ràng là không (mặc dù ý tưởng đó có thể dẫn đến một biện pháp thú vị về liên kết tuyến tính có thể phù hợp trong một vài tình huống cụ thể - ví dụ như ở đó là một hỗn hợp không có tiếng ồn / lỗi bất cứ lúc nào và đôi khi có một số lỗi, như với một số quy trình gây ô nhiễm - và sau đó bạn sẽ ước tính tỷ lệ dữ liệu không bị nhiễm bẩn). Nếu bạn có ý gì đó ngoài "nằm chính xác", bạn sẽ cần xác định nghĩa đó là gì.
Glen_b -Reinstate Monica

Câu trả lời:


8

Phần đầu tiên về cơ bản là chính xác - nhưng 64% biến thể được mô hình giải thích. Trong hồi quy tuyến tính đơn giản: Y ~ X, nếu là 0,6 thì có nghĩa là 64% biến thể trong Y được xác định bởi mối quan hệ tuyến tính giữa Y và X. Có thể có mối quan hệ chặt chẽ với R 2 rất thấp , nếu mối quan hệ mạnh mẽ phi tuyến tính.R2R2

Về hai câu hỏi được đánh số của bạn, không phải là chính xác. Thật vậy, có thể không có điểm nào có thể nằm chính xác trên đường hồi quy. Đó không phải là những gì được đo. Thay vào đó, đó là một câu hỏi về mức điểm trung bình gần với đường thẳng. Nếu tất cả hoặc gần như tất cả các điểm gần nhau (ngay cả khi không có điểm nào chính xác trên đường thẳng) thì sẽ cao. Nếu hầu hết các điểm cách xa đường thẳng, R 2 sẽ ở mức thấp. Nếu hầu hết các điểm đều gần nhưng một số điểm ở xa thì hồi quy không chính xác (vấn đề của các ngoại lệ). Những thứ khác cũng có thể đi sai.R2R2

Ngoài ra, tôi đã để lại khái niệm "xa" khá mơ hồ. Điều này sẽ phụ thuộc vào mức độ lan truyền của X. Làm cho các khái niệm này chính xác là một phần của những gì bạn học trong một khóa học về hồi quy; Tôi sẽ không nhận được ở đây.


Vâng, điều đó đã làm sáng tỏ rất nhiều cho tôi! Cảm ơn bạn Mimshot và Peter Flom! Rất biết ơn cả hai bạn! :)
Bradex

1
+1, câu trả lời hay, bạn có phiền khi thêm một cái gì đó như "Thật vậy, [có thể là] không có điểm nào có thể nói dối ...". Ngoài ra, có thể đáng để thảo luận rằng khái niệm về các điểm cách đường bao xa cũng liên quan đến mức độ lan rộng của X.
gung - Phục hồi Monica

15

Bạn đúng với phần đầu tiên của tuyên bố của bạn. Cách thông thường để giải thích hệ số xác định là tỷ lệ phần trăm biến thiên của biến phụ thuộc y ( V a r (R2y ) mà chúng ta có thể giải thích bằng các biến giải thích. Cóthể tìm thấycách giải thích và dẫn xuất chính xác của hệ số xác định R 2 tại đâyVar(y)R2

http: // ec economtheoryblog.com/2014/11/05/the-coffic-of-determination-latex-r2/

Tuy nhiên, giải thích một cách ít được biết đến của hệ số xác định là để giải thích nó như là tương quan Hệ số Squared Pearson giữa các giá trị quan sát y i và các giá trị được trang bị y i . Bằng chứng là hệ số xác định tương đương với Hệ số tương quan Squared Pearson giữa các giá trị quan sát y i và các giá trị được trang bịR2yiy^iyicó thể được tìm thấy ở đâyy^i

http: // ec economtheoryblog.com/2014/11/05/proof/

Theo quan điểm của tôi đây là những cách có ý nghĩa duy nhất để diễn giải hệ số xác định . Theo sau, hai câu lệnh bạn đưa ra không thể được lấy từ R 2 .R2R2


2
Tôi không chắc chắn chỉ có hai cách để giải thích ( chắc chắn có nhiều hơn hai cách để giải thích r ) nhưng lý do cho thấy hai câu lệnh đưa ra không thể xuất phát từ R 2 là chúng sai ( vì lý do @PeterFlom giải thích) thay vì không có cách giải thích nào khác. Nhưng tôi nghĩ khác đây là một câu trả lời tốt đẹp. R2rR2
Cá bạc

2
Trong trường hợp các liên kết đã cho sẽ chết vào một thời điểm nào đó trong tương lai (linkrot là một vấn đề muôn thuở - chúng tôi muốn đưa ra câu trả lời nếu có thể, nhưng rõ ràng câu hỏi này không yêu cầu bằng chứng đầy đủ vì vậy một liên kết là phù hợp), chúng tôi có một số bảo hiểm của mối quan hệ giữa R 2 , ở đây , ở đây , ở đâyhình học hơn, ở đây . Corr(y,y^)R2
Cá bạc

2

Niether 1 hay 2 là đúng.

Giả sử bạn đang cố gắng dự đoán một tập hợp các giá trị từ một tập hợp các giá trị xyyxx

yi=b+mxi+ϵi

ϵiN(0,σ2)R2=.64yx

y^i=b+mxi

Then

10.64=0.36=var(yyy^y^)var(yy)
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.