Cách tốt nhất để hiểu các thuật ngữ này là thực hiện tính toán hồi quy bằng tay. Tôi đã viết hai câu trả lời liên quan chặt chẽ ( ở đây và ở đây ), tuy nhiên chúng có thể không hoàn toàn giúp bạn hiểu trường hợp cụ thể của bạn. Nhưng dù sao cũng đọc qua chúng. Có lẽ họ cũng sẽ giúp bạn khái niệm hóa các điều khoản này tốt hơn.
Trong hồi quy (hoặc ANOVA), chúng tôi xây dựng một mô hình dựa trên bộ dữ liệu mẫu cho phép chúng tôi dự đoán kết quả từ một nhóm người quan tâm. Để làm như vậy, ba thành phần sau được tính theo hồi quy tuyến tính đơn giản từ đó các thành phần khác có thể được tính, ví dụ bình phương trung bình, giá trị F, R2 (cũng là R2 điều chỉnh ) và lỗi tiêu chuẩn còn lại ( RSE ):
- tổng số bình phương ( SStotal )
- tổng số dư của hình vuông ( SSresidual )
- mô hình tổng bình phương ( SSmodel )
Mỗi người trong số họ đang đánh giá mô hình mô tả dữ liệu tốt như thế nào và là tổng khoảng cách bình phương từ các điểm dữ liệu đến mô hình được trang bị (được minh họa là các đường màu đỏ trong âm mưu bên dưới).
Các SSt otal đánh giá tốt phù hợp có ý nghĩa như thế nào dữ liệu. Tại sao có nghĩa? Bởi vì giá trị trung bình là mô hình đơn giản nhất mà chúng ta có thể phù hợp và do đó đóng vai trò là mô hình mà đường hồi quy bình phương nhỏ nhất được so sánh với. Biểu đồ này sử dụng cars
bộ dữ liệu minh họa rằng:
SSr e sidu một l
SSm o delSSt o t a lSSr e s idbạn một l
Để trả lời câu hỏi của bạn, trước tiên hãy tính các thuật ngữ mà bạn muốn hiểu bắt đầu bằng mô hình và đầu ra làm tài liệu tham khảo:
# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares
Tổng các bình phương là khoảng cách bình phương của các điểm dữ liệu riêng lẻ cho mô hình:
# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model
Các bình phương trung bình là các tổng bình phương được tính trung bình theo các bậc tự do:
# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1
# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model
Câu trả lời của tôi cho câu hỏi của bạn:
Q1:
- Đây thực sự là khoảng cách trung bình của các giá trị quan sát được từ dòng lm?
R SEMSr e s i du một l
# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se
SSr e s i du một lMSr e s i du một l SSr e s i du một lR SEbiểu thị khoảng cách trung bình của dữ liệu quan sát được từ mô hình. Theo trực giác, điều này cũng có ý nghĩa hoàn hảo bởi vì nếu khoảng cách nhỏ hơn, phù hợp với mô hình của bạn cũng tốt hơn.
Quý 2:
- Bây giờ tôi đang bối rối bởi vì nếu RSE cho chúng ta biết các điểm quan sát của chúng ta lệch khỏi đường hồi quy thì RSE thấp thực sự cho chúng ta biết "mô hình của bạn phù hợp tốt dựa trên các điểm dữ liệu được quan sát" -> do đó mô hình của chúng ta phù hợp như thế nào , vậy sự khác biệt giữa R bình phương và RSE là gì?
R2SSm o de lSSt o t a l
# R squared
r.sq <- ss.model/ss.total
r.sq
R2SStotalSSmodel
RSER2RSE
R2
Quý 3:
- Có đúng là chúng ta có thể có giá trị F chỉ ra mối quan hệ mạnh mẽ là NON LINEAR để RSE của chúng ta cao và bình phương R của chúng ta thấp
FMSmodelMSresidual
# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F
F
Câu hỏi thứ ba của bạn hơi khó hiểu nhưng tôi đồng ý với trích dẫn mà bạn cung cấp.