Hệ số xác định ( ): Tôi chưa bao giờ nắm bắt hoàn toàn việc giải thích


21

Tôi muốn hoàn toàn nắm bắt khái niệm mô tả lượng biến thể giữa các biến. Mỗi lời giải thích trên web là một chút máy móc và khó hiểu. Tôi muốn "có được" khái niệm này, không chỉ sử dụng một cách máy móc các con số.r2

Ví dụ: Số giờ học so với điểm kiểm tra

r = .8

r2 = .64

  • Vì vậy, điều này có nghĩa là gì?
  • 64% sự thay đổi của điểm kiểm tra có thể được giải thích bằng giờ?
  • Làm thế nào để chúng ta biết rằng chỉ bằng cách bình phương?

câu hỏi của bạn không phải là về R so với bình phương R (bạn hiểu rằng 0.82=0.64 ) mà là về cách giải thích của r2 . Hãy cải tổ tiêu đề.
robin girard

một câu hỏi tương tự: stats.stackexchange.com/questions/28139/ từ
Abe

@amoeba đồng ý, tôi rút thẻ.
Brett

Bạn cần để xác định tầm quan trọng. Cũng xem, stats.stackexchange.com/a/265924/99274 . n
Carl

Câu trả lời:


27

Bắt đầu với ý tưởng cơ bản của biến thể. Mô hình bắt đầu của bạn là tổng của độ lệch bình phương so với giá trị trung bình. Giá trị R ^ 2 là tỷ lệ của biến thể đó được tính bằng cách sử dụng một mô hình thay thế. Ví dụ, R-squared cho bạn biết mức độ biến đổi trong Y mà bạn có thể loại bỏ bằng cách tính tổng khoảng cách bình phương từ đường hồi quy, thay vì trung bình.

Tôi nghĩ rằng điều này được thực hiện hoàn toàn rõ ràng nếu chúng ta nghĩ về vấn đề hồi quy đơn giản được vạch ra. Hãy xem xét một biểu đồ phân tán điển hình trong đó bạn có bộ dự đoán X dọc theo trục ngang và phản hồi Y dọc theo trục dọc.

Giá trị trung bình là một đường nằm ngang trên ô trong đó Y không đổi. Tổng biến thiên trong Y là tổng các khác biệt bình phương giữa giá trị trung bình của Y và từng điểm dữ liệu riêng lẻ. Đó là khoảng cách giữa đường trung bình và mọi điểm riêng lẻ bình phương và cộng lại.

Bạn cũng có thể tính toán một số đo khác nhau sau khi bạn có đường hồi quy từ mô hình. Đây là sự khác biệt giữa mỗi điểm Y và đường hồi quy. Thay vì bình phương (Y - trung bình) chúng ta nhận được (Y - điểm trên đường hồi quy) bình phương.

Nếu đường hồi quy là bất cứ thứ gì ngoài chiều ngang, chúng ta sẽ nhận được tổng khoảng cách ít hơn khi chúng ta sử dụng đường hồi quy được trang bị này thay vì trung bình - đó là có ít biến thể không giải thích được. Tỷ lệ giữa biến thể bổ sung được giải thích và biến thể ban đầu là R ^ 2 của bạn. Đó là tỷ lệ của biến thể ban đầu trong phản hồi của bạn được giải thích bằng cách khớp đường hồi quy đó.

nhập mô tả hình ảnh ở đây

Dưới đây là một số mã R cho biểu đồ với giá trị trung bình, đường hồi quy và các phân đoạn từ đường hồi quy đến từng điểm để giúp trực quan hóa:

library(ggplot2)
data(faithful)

plotdata <- aggregate( eruptions ~ waiting , data = faithful, FUN = mean) 

linefit1 <- lm(eruptions ~ waiting, data = plotdata)

plotdata$expected <- predict(linefit1)
plotdata$sign <- residuals(linefit1) > 0

p <- ggplot(plotdata, aes(y=eruptions, x=waiting, xend=waiting, yend=expected) )  

p  + geom_point(shape = 1, size = 3) +
     geom_smooth(method=lm, se=FALSE) + 
     geom_segment(aes(y=eruptions, x=waiting, xend=waiting, yend=expected, colour = sign),  
                  data = plotdata) +
     theme(legend.position="none")  +
     geom_hline(yintercept = mean(plotdata$eruptions), size = 1)

> Tỷ lệ giữa biến thể được giải thích và biến thể ban đầu là R ^ 2 Hãy xem tôi có nhận được biến thể này không. Nếu biến thể ban đầu từ tổng trung bình 100 và biến thể hồi quy tổng cộng 20, thì tỷ lệ = 20/100 = .2 Bạn đang nói R ^ 2 = .2 b / c 20% biến thể trung bình (màu đỏ) được tính cho biến thể được giải thích (màu xanh lá cây) (Trong trường hợp r = 1) Nếu biến thể ban đầu có tổng bằng 50 và biến thể hồi quy tổng bằng 0, thì tỷ lệ = 0/50 = 0 = 0% của biến thể từ giá trị trung bình ( màu đỏ) được tính bằng biến thể được giải thích (màu xanh lá cây) Tôi mong R ^ 2 sẽ là 1, không phải 0.
JackOf ALL

1
R ^ 2 = 1- (SSR / SST) hoặc (SST-SSR) / SST. Vì vậy, trong ví dụ của bạn, R ^ 2 = .80 và 1.00. Sự khác biệt giữa đường hồi quy và từng điểm là không phù hợp bởi sự phù hợp. Phần còn lại là tỷ lệ được giải thích. Mặt khác, điều đó hoàn toàn chính xác.
Brett

Tôi đã chỉnh sửa đoạn cuối đó để cố gắng làm cho nó rõ ràng hơn một chút. Về mặt khái niệm (và tính toán) tất cả những gì bạn cần là ở đó. Có thể rõ ràng hơn khi thực sự thêm công thức và tham khảo SST SSE và SSR, nhưng sau đó tôi đã cố gắng hiểu về nó một cách khái niệm
Brett

tức là: R ^ 2 là tỷ lệ của tổng biến thiên từ giá trị trung bình (SST) là chênh lệch b / w giá trị hồi quy dự kiến ​​và giá trị trung bình (SSE). Trong ví dụ của tôi về số giờ so với điểm số, giá trị hồi quy sẽ là điểm kiểm tra dự kiến ​​dựa trên mối tương quan với số giờ nghiên cứu. Bất kỳ biến thể bổ sung nào từ đó được quy cho SSR. Đối với một điểm nhất định, số giờ nghiên cứu biến / hồi quy đã giải thích x% tổng biến thể từ giá trị trung bình (SST). Với giá trị r cao, "giải thích" là tỷ lệ phần trăm lớn của SST so với SSR. Với giá trị r thấp, "giải thích" là tỷ lệ SST thấp hơn so với SSR.
JackOf ALL

@BrettMagill, tôi nghĩ rằng liên kết đến hình ảnh đã bị hỏng ...
Garrett

6

Một minh chứng toán học về mối quan hệ giữa hai người ở đây: phân tích hồi quy tương quan và bình phương nhỏ nhất của Pearson .

Tôi không chắc chắn nếu có một hình học hoặc bất kỳ trực giác nào khác có thể được cung cấp ngoài toán học nhưng nếu tôi có thể nghĩ ra một cái tôi sẽ cập nhật câu trả lời này.

Cập nhật: Trực giác hình học

xyy

y=x β+ϵ

y1,y2x1,x2

văn bản thay thế http://a.imageshack.us/img202/669/linearregression1.png

βx βyβxβ^βyy^=x β^

y=y^+ϵ^

yy^ϵ^β^

βx βϵ^

yyxyy12+y22yy^y^

Theo định lý Pythagore, chúng ta có:

y2=y^2+ϵ^2

xy^2y2cos(θ)=y^y

Do đó, chúng tôi có mối quan hệ bắt buộc:

yx

Mong rằng sẽ giúp.


Tôi đánh giá cao nỗ lực của bạn trong việc giúp đỡ, nhưng thật không may, điều này chỉ làm mọi thứ tồi tệ hơn gấp 10 lần. Bạn có thực sự giới thiệu lượng giác để giải thích r ^ 2? Bạn quá thông minh để trở thành một giáo viên giỏi!
JackOf ALL

Tôi nghĩ rằng bạn muốn biết tại sao tương quan ^ 2 = R ^ 2. Trong mọi trường hợp, các cách hiểu khác nhau về cùng một khái niệm sẽ giúp hoặc ít nhất đó là quan điểm của tôi.

3

Ứng dụng Regression By Eye có thể được sử dụng nếu bạn đang cố gắng phát triển một số trực giác.

Nó cho phép bạn tạo dữ liệu sau đó đoán giá trị cho R , sau đó bạn có thể so sánh với giá trị thực.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.