Hồi quy tuyến tính, thống kê F, R bình phương và sai số chuẩn cho chúng ta biết điều gì?


14

Tôi thực sự bối rối về sự khác biệt về ý nghĩa liên quan đến bối cảnh hồi quy tuyến tính của các thuật ngữ sau:

  • Thống kê F
  • R bình phương
  • Lỗi tiêu chuẩn dư

Tôi tìm thấy webstie này đã cho tôi cái nhìn sâu sắc về các thuật ngữ khác nhau liên quan đến hồi quy tuyến tính, tuy nhiên các thuật ngữ được đề cập ở trên trông khá giống (theo như tôi hiểu). Tôi sẽ trích dẫn những gì tôi đọc và những gì làm tôi bối rối:

Lỗi tiêu chuẩn dư là thước đo chất lượng của độ khớp hồi quy tuyến tính ....... Lỗi tiêu chuẩn dư là lượng trung bình mà phản hồi (dist) sẽ lệch khỏi đường hồi quy thực.

1. Đây thực sự là khoảng cách trung bình của các giá trị quan sát được từ đường lm?

Thống kê R bình phương cung cấp thước đo mức độ phù hợp của mô hình với dữ liệu thực tế.

2. Bây giờ tôi đang bối rối vì nếu RSE cho chúng tôi biết các điểm quan sát của chúng tôi lệch khỏi đường hồi quy thì RSE thấp thực sự cho chúng tôi biết "mô hình của bạn phù hợp tốt dựa trên các điểm dữ liệu được quan sát" -> do đó, mức độ tốt của chúng tôi mô hình phù hợp, vậy sự khác biệt giữa R bình phương và RSE là gì?

Thống kê F là một chỉ số tốt về việc liệu có mối quan hệ giữa yếu tố dự đoán của chúng ta và các biến trả lời hay không.

3. Có đúng là chúng ta có thể có giá trị F biểu thị mối quan hệ mạnh mẽ là NON LINEAR để RSE của chúng ta cao và bình phương R của chúng ta thấp


Q 3 Fvalue không chỉ ra mối quan hệ phi tuyến tính. Đó là một tỷ lệ cho biết liệu có mối quan hệ thực chất (không đổi) giữa hai biến - phụ thuộc và độc lập.
Subhash C. Davar

Nó không cho chúng ta biết bản chất của mối quan hệ - phi tuyến tính hoặc tuyến tính.
Subhash C. Davar

Câu trả lời:


12

Cách tốt nhất để hiểu các thuật ngữ này là thực hiện tính toán hồi quy bằng tay. Tôi đã viết hai câu trả lời liên quan chặt chẽ ( ở đâyở đây ), tuy nhiên chúng có thể không hoàn toàn giúp bạn hiểu trường hợp cụ thể của bạn. Nhưng dù sao cũng đọc qua chúng. Có lẽ họ cũng sẽ giúp bạn khái niệm hóa các điều khoản này tốt hơn.

Trong hồi quy (hoặc ANOVA), chúng tôi xây dựng một mô hình dựa trên bộ dữ liệu mẫu cho phép chúng tôi dự đoán kết quả từ một nhóm người quan tâm. Để làm như vậy, ba thành phần sau được tính theo hồi quy tuyến tính đơn giản từ đó các thành phần khác có thể được tính, ví dụ bình phương trung bình, giá trị F, R2 (cũng là R2 điều chỉnh ) và lỗi tiêu chuẩn còn lại ( RSE ):

  1. tổng số bình phương ( SStotal )
  2. tổng số dư của hình vuông ( SSresidual )
  3. mô hình tổng bình phương ( SSmodel )

Mỗi người trong số họ đang đánh giá mô hình mô tả dữ liệu tốt như thế nào và là tổng khoảng cách bình phương từ các điểm dữ liệu đến mô hình được trang bị (được minh họa là các đường màu đỏ trong âm mưu bên dưới).

Các SStotatôi đánh giá tốt phù hợp có ý nghĩa như thế nào dữ liệu. Tại sao có nghĩa? Bởi vì giá trị trung bình là mô hình đơn giản nhất mà chúng ta có thể phù hợp và do đó đóng vai trò là mô hình mà đường hồi quy bình phương nhỏ nhất được so sánh với. Biểu đồ này sử dụng carsbộ dữ liệu minh họa rằng:

nhập mô tả hình ảnh ở đây

SSreSTôidbạnmộttôi

nhập mô tả hình ảnh ở đây

SSmodetôiSStotmộttôiSSreSTôidbạnmộttôi

nhập mô tả hình ảnh ở đây

Để trả lời câu hỏi của bạn, trước tiên hãy tính các thuật ngữ mà bạn muốn hiểu bắt đầu bằng mô hình và đầu ra làm tài liệu tham khảo:

# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares

Tổng các bình phương là khoảng cách bình phương của các điểm dữ liệu riêng lẻ cho mô hình:

# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model

Các bình phương trung bình là các tổng bình phương được tính trung bình theo các bậc tự do:

# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1

# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model

Câu trả lời của tôi cho câu hỏi của bạn:

Q1:

  1. Đây thực sự là khoảng cách trung bình của các giá trị quan sát được từ dòng lm?

RSEMSreSTôidbạnmộttôi

# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se  

SSreSTôidbạnmộttôiMSreSTôidbạnmộttôi SSreSTôidbạnmộttôiRSEbiểu thị khoảng cách trung bình của dữ liệu quan sát được từ mô hình. Theo trực giác, điều này cũng có ý nghĩa hoàn hảo bởi vì nếu khoảng cách nhỏ hơn, phù hợp với mô hình của bạn cũng tốt hơn.

Quý 2:

  1. Bây giờ tôi đang bối rối bởi vì nếu RSE cho chúng ta biết các điểm quan sát của chúng ta lệch khỏi đường hồi quy thì RSE thấp thực sự cho chúng ta biết "mô hình của bạn phù hợp tốt dựa trên các điểm dữ liệu được quan sát" -> do đó mô hình của chúng ta phù hợp như thế nào , vậy sự khác biệt giữa R bình phương và RSE là gì?

R2SSmodetôiSStotmộttôi

# R squared
r.sq <- ss.model/ss.total
r.sq

R2SStotalSSmodel

RSER2RSE

R2

Quý 3:

  1. Có đúng là chúng ta có thể có giá trị F chỉ ra mối quan hệ mạnh mẽ là NON LINEAR để RSE của chúng ta cao và bình phương R của chúng ta thấp

FMSmodelMSresidual

# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F 

F

Câu hỏi thứ ba của bạn hơi khó hiểu nhưng tôi đồng ý với trích dẫn mà bạn cung cấp.


3

(2) Bạn đang hiểu nó một cách chính xác, bạn chỉ đang gặp khó khăn với khái niệm này.

R2

R2


0

Chỉ để bổ sung cho những gì Chris trả lời ở trên:

Thống kê F là sự phân chia của bình phương trung bình của mô hình và bình phương trung bình còn lại. Phần mềm như Stata, sau khi phù hợp với mô hình hồi quy, cũng cung cấp giá trị p liên quan đến thống kê F. Điều này cho phép bạn kiểm tra giả thuyết khống rằng hệ số mô hình của bạn bằng không. Bạn có thể nghĩ về nó như là "ý nghĩa thống kê của toàn bộ mô hình."

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.