R - Nhầm lẫn về thuật ngữ dư


34
  • Lỗi trung bình bình phương
  • tổng dư của hình vuông
  • lỗi tiêu chuẩn còn lại
  • có nghĩa là lỗi bình phương
  • kiểm tra lỗi

Tôi nghĩ rằng tôi đã từng hiểu những thuật ngữ này nhưng tôi càng làm các vấn đề thống kê, tôi càng cảm thấy bối rối khi tự mình đoán thứ hai. Tôi muốn một số đảm bảo lại & một ví dụ cụ thể

Tôi có thể tìm thấy các phương trình đủ dễ dàng trên mạng nhưng tôi gặp khó khăn khi giải thích 'giải thích như tôi 5' về các thuật ngữ này để tôi có thể kết tinh trong đầu những khác biệt và cách chúng dẫn đến cái khác.

Nếu bất cứ ai có thể lấy mã này dưới đây và chỉ ra cách tôi sẽ tính toán từng điều khoản trong số này, tôi sẽ đánh giá cao nó. Mã R sẽ là tuyệt vời ..

Sử dụng ví dụ dưới đây:

summary(lm(mpg~hp, data=mtcars))

Chỉ cho tôi trong mã R cách tìm:

rmse = ____
rss = ____
residual_standard_error = ______  # i know its there but need understanding
mean_squared_error = _______
test_error = ________

Điểm thưởng cho việc giải thích như tôi là 5 điểm khác biệt / tương đồng giữa những điểm này. thí dụ:

rmse = squareroot(mss)

2
Bạn có thể đưa ra bối cảnh mà bạn đã nghe cụm từ " lỗi kiểm tra " không? Bởi vì có được một cái gì đó gọi là 'lỗi thử' nhưng tôi không hoàn toàn chắc chắn đó là những gì bạn đang tìm kiếm ... (nó xuất hiện trong bối cảnh của việc có một tập kiểm tratập huấn luyện --does bất kỳ âm thanh quen thuộc? )
Steve S

Có - tôi hiểu rằng đó là mô hình được tạo trên tập huấn luyện được áp dụng cho tập kiểm tra. Lỗi kiểm tra được mô hình hóa y's - test y's hoặc (modeled y's - test y's) ^ 2 hoặc (modeled y's - test y's) ^ 2 /// DF (hoặc N?) Hoặc ((modeled y's - test y's) ^ 2 / N) ^. 5?
dùng3788557

Câu trả lời:


60

Theo yêu cầu, tôi minh họa bằng cách sử dụng hồi quy đơn giản bằng cách sử dụng mtcarsdữ liệu:

fit <- lm(mpg~hp, data=mtcars)
summary(fit)

Call:
lm(formula = mpg ~ hp, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.7121 -2.1122 -0.8854  1.5819  8.2360 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 30.09886    1.63392  18.421  < 2e-16 ***
hp          -0.06823    0.01012  -6.742 1.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 3.863 on 30 degrees of freedom
Multiple R-squared:  0.6024,    Adjusted R-squared:  0.5892 
F-statistic: 45.46 on 1 and 30 DF,  p-value: 1.788e-07

Các lỗi bình phương trung bình (MSE) là giá trị trung bình của quảng trường của các số dư:

# Mean squared error
mse <- mean(residuals(fit)^2)
mse
[1] 13.98982

Lỗi bình phương trung bình gốc (RMSE) sau đó là căn bậc hai của MSE:

# Root mean squared error
rmse <- sqrt(mse)
rmse
[1] 3.740297

Tổng số bình phương còn lại (RSS) là tổng của số dư bình phương:

# Residual sum of squares
rss <- sum(residuals(fit)^2)
rss
[1] 447.6743

Lỗi tiêu chuẩn còn lại (RSE) là căn bậc hai của (RSS / độ tự do):

# Residual standard error
rse <- sqrt( sum(residuals(fit)^2) / fit$df.residual ) 
rse
[1] 3.862962

Tính toán tương tự, được đơn giản hóa bởi vì chúng tôi đã tính toán trước đây rss:

sqrt(rss / fit$df.residual)
[1] 3.862962

Lỗi kiểm tra thuật ngữ trong ngữ cảnh hồi quy (và các kỹ thuật phân tích dự đoán khác) thường đề cập đến việc tính toán thống kê kiểm tra trên dữ liệu kiểm tra, khác với dữ liệu đào tạo của bạn.

Nói cách khác, bạn ước tính một mô hình bằng cách sử dụng một phần dữ liệu của bạn (thường là mẫu 80%) và sau đó tính toán lỗi bằng cách sử dụng mẫu giữ. Một lần nữa, tôi minh họa bằng cách sử dụng mtcars, lần này với mẫu 80%

set.seed(42)
train <- sample.int(nrow(mtcars), 26)
train
 [1] 30 32  9 25 18 15 20  4 16 17 11 24 19  5 31 21 23  2  7  8 22 27 10 28  1 29

Ước tính mô hình, sau đó dự đoán với dữ liệu giữ:

fit <- lm(mpg~hp, data=mtcars[train, ])
pred <- predict(fit, newdata=mtcars[-train, ])
pred
 Datsun 710     Valiant  Merc 450SE  Merc 450SL Merc 450SLC   Fiat X1-9 
   24.08103    23.26331    18.15257    18.15257    18.15257    25.92090 

Kết hợp dữ liệu gốc và dự đoán trong khung dữ liệu

test <- data.frame(actual=mtcars$mpg[-train], pred)
    test$error <- with(test, pred-actual)
test
            actual     pred      error
Datsun 710    22.8 24.08103  1.2810309
Valiant       18.1 23.26331  5.1633124
Merc 450SE    16.4 18.15257  1.7525717
Merc 450SL    17.3 18.15257  0.8525717
Merc 450SLC   15.2 18.15257  2.9525717
Fiat X1-9     27.3 25.92090 -1.3791024

Bây giờ hãy tính toán thống kê kiểm tra của bạn theo cách thông thường. Tôi minh họa MSE và RMSE:

test.mse <- with(test, mean(error^2))
test.mse
[1] 7.119804

test.rmse <- sqrt(test.mse)
test.rmse
[1] 2.668296

Lưu ý rằng câu trả lời này bỏ qua trọng số của các quan sát.


Cảm ơn bạn cho câu trả lời này nó thực sự giúp tôi hiểu. Khi thực hiện nghiên cứu, bài học của Datacamp về sự phù hợp với mô hình mô tả một công thức khác với công thức của bạn cho RMSE. Tôi tìm thấy này ở trang sau khi tìm kiếm của Google. Công thức bạn đưa ra cho RMSE có ý nghĩa trực quan và dễ hiểu. Tính toán của họ cho RMSE liên quan đến mức độ tự do trong mẫu số. Ngoài ra, nếu tôi đọc bài đăng của họ một cách chính xác, họ nói rằng R gọi RMSE là lỗi tiêu chuẩn còn lại nhưng từ câu trả lời của bạn thì đây là các số liệu đánh giá riêng biệt. Suy nghĩ?
Doug Fir

22

Người đăng ban đầu yêu cầu câu trả lời "giải thích như tôi 5". Giả sử giáo viên trường học của bạn mời bạn và bạn học của bạn để giúp đoán chiều rộng bàn của giáo viên. Mỗi trong số 20 học sinh trong lớp có thể chọn một thiết bị (thước kẻ, tỷ lệ, băng hoặc thước đo) và được phép đo bảng 10 lần. Tất cả các bạn được yêu cầu sử dụng các vị trí bắt đầu khác nhau trên thiết bị để tránh đọc đi đọc lại cùng một số; việc đọc bắt đầu sau đó phải được trừ khỏi lần đọc kết thúc để cuối cùng có được một phép đo chiều rộng (gần đây bạn đã học cách làm loại toán đó).

Có tổng số 200 phép đo chiều rộng được thực hiện bởi cả lớp (20 học sinh, mỗi lần đo 10). Các quan sát được bàn giao cho giáo viên, người sẽ crunch các con số. Trừ các quan sát của mỗi học sinh khỏi một giá trị tham chiếu sẽ dẫn đến 200 số khác, được gọi là độ lệch . Giáo viên tính trung bình mẫu của mỗi học sinh riêng biệt, đạt được 20 phương tiện . Trừ các quan sát của mỗi học sinh khỏi giá trị trung bình cá nhân của họ sẽ dẫn đến 200 sai lệch so với giá trị trung bình, được gọi là số . Nếu số dư trung bình được tính cho từng mẫu, bạn sẽ nhận thấy nó luôn bằng không. Nếu thay vào đó, chúng ta bình phương mỗi phần dư, tính trung bình cho chúng và cuối cùng hoàn tác hình vuông, chúng ta có được độ lệch chuẩn. (Nhân tiện, chúng tôi gọi phép tính cuối cùng đó là căn bậc hai (nghĩ đến việc tìm đáy hoặc cạnh của một hình vuông đã cho), vì vậy, toàn bộ hoạt động thường được gọi là căn bậc hai có nghĩa là , độ lệch chuẩn của các quan sát bằng căn bậc hai có nghĩa là bình phương của phần dư.)

Nhưng giáo viên đã biết chiều rộng bảng thực sự, dựa trên cách nó được thiết kế và xây dựng và kiểm tra trong nhà máy. Vì vậy, 200 số khác, được gọi là lỗi , có thể được tính là độ lệch của các quan sát đối với chiều rộng thực. Một lỗi trung bình có thể được tính cho mỗi mẫu học sinh. Tương tự, 20 độ lệch chuẩn của lỗi , hoặc lỗi tiêu chuẩn , có thể được tính cho các quan sát. Hơn 20 lỗi trung bình bình phươnggiá trị có thể được tính là tốt. Ba bộ 20 giá trị có liên quan là sqrt (me ^ 2 + se ^ 2) = rmse, theo thứ tự xuất hiện. Dựa trên rmse, giáo viên có thể đánh giá học sinh đã cung cấp ước tính tốt nhất cho chiều rộng của bảng. Hơn nữa, bằng cách xem xét riêng biệt về 20 lỗi trung bình và 20 giá trị lỗi tiêu chuẩn, giáo viên có thể hướng dẫn mỗi học sinh cách cải thiện bài đọc của mình.

Khi kiểm tra, giáo viên đã trừ từng lỗi từ lỗi trung bình tương ứng của họ, dẫn đến 200 số khác, chúng tôi sẽ gọi các lỗi còn lại (điều đó không thường được thực hiện). Như trên, sai số dư trung bình bằng 0, do đó độ lệch chuẩn của sai số dư hoặc sai số dư tiêu chuẩn cũng giống như lỗi tiêu chuẩn , và trên thực tế, cũng là lỗi dư có nghĩa là bình phương gốc . (Xem bên dưới để biết chi tiết.)

Bây giờ đây là một cái gì đó quan tâm đến giáo viên. Chúng tôi có thể so sánh ý nghĩa của từng học sinh với phần còn lại của lớp (tổng số 20 nghĩa là). Giống như chúng tôi đã xác định trước các giá trị điểm này:

  • m: trung bình (của các quan sát),
  • s: độ lệch chuẩn (của các quan sát)
  • tôi: lỗi trung bình (của các quan sát)
  • se: lỗi tiêu chuẩn (của các quan sát)
  • rmse: lỗi trung bình gốc-bình phương (của các quan sát)

bây giờ chúng ta cũng có thể định nghĩa:

  • mm: giá trị trung bình của phương tiện
  • sm: độ lệch chuẩn của giá trị trung bình
  • mem: lỗi trung bình của giá trị trung bình
  • sem: sai số chuẩn của giá trị trung bình
  • rmsem: lỗi trung bình bình phương gốc của giá trị trung bình

Chỉ khi lớp sinh viên được cho là không thiên vị, nghĩa là, nếu mem = 0, thì sem = sm = rmsem; tức là sai số chuẩn của giá trị trung bình, độ lệch chuẩn của giá trị trung bình và sai số trung bình bình phương gốc có thể giống nhau với điều kiện sai số trung bình của phương tiện là bằng không.

Nếu chúng tôi chỉ lấy một mẫu, nghĩa là, nếu chỉ có một học sinh trong lớp, độ lệch chuẩn của (các) quan sát có thể được sử dụng để ước tính độ lệch chuẩn của trung bình (sm), như sm ^ 2 ~ s ^ 2 / n, trong đó n = 10 là cỡ mẫu (số lần đọc trên mỗi học sinh). Hai người sẽ đồng ý tốt hơn khi kích thước mẫu tăng lên (n = 10,11, ...; số lần đọc nhiều hơn cho mỗi học sinh) và số lượng mẫu tăng lên (n '= 20,21, ...; nhiều học sinh hơn trong lớp). (Một cảnh báo: một "lỗi tiêu chuẩn" không đủ tiêu chuẩn thường đề cập đến lỗi tiêu chuẩn của giá trị trung bình, không phải là lỗi tiêu chuẩn của các quan sát.)

Dưới đây là một số chi tiết của các tính toán liên quan. Giá trị thực được ký hiệu là t.

Các thao tác đặt điểm:

  • nghĩa là: Ý (X)
  • căn bậc hai có nghĩa là: RMS (X)
  • độ lệch chuẩn: SD (X) = RMS (X-MEAN (X))

THIẾT LẬP MẪU INTRA:

  • các quan sát (đã cho), X = {x_i}, i = 1, 2, ..., n = 10.
  • độ lệch: sự khác biệt của một tập hợp đối với một điểm cố định.
  • phần dư: độ lệch của các quan sát so với giá trị trung bình của chúng, R = Xm.
  • lỗi: độ lệch của các quan sát so với giá trị thực, E = Xt.
  • lỗi dư: độ lệch của lỗi so với giá trị trung bình của chúng, RE = E-MEAN (E)

CÁC ĐIỂM MẪU INTRA (xem bảng 1):

  • m: trung bình (của các quan sát),
  • s: độ lệch chuẩn (của các quan sát)
  • tôi: lỗi trung bình (của các quan sát)
  • se: lỗi tiêu chuẩn của các quan sát
  • rmse: lỗi trung bình gốc-bình phương (của các quan sát)

Bảng 1

CÁC MẪU INTER-MẪU (ENSEMBLE):

  • nghĩa là, M = {m_j}, j = 1, 2, ..., n '= 20.
  • phần dư của giá trị trung bình: độ lệch của phương tiện so với giá trị trung bình của chúng, RM = M-mm.
  • lỗi của giá trị trung bình: độ lệch của phương tiện so với "sự thật", EM = Mt.
  • sai số dư của giá trị trung bình: độ lệch của sai số trung bình so với giá trị trung bình của chúng, REM = EM-MEAN (EM)

ĐIỂM INTER-SAMPLE (ENSEMBLE) (xem bảng 2):

  • mm: giá trị trung bình của phương tiện
  • sm: độ lệch chuẩn của giá trị trung bình
  • mem: lỗi trung bình của giá trị trung bình
  • sem: lỗi tiêu chuẩn (của trung bình)
  • rmsem: lỗi trung bình bình phương gốc của giá trị trung bình

ban 2


0

Tôi cũng cảm thấy tất cả các điều khoản rất khó hiểu. Tôi mạnh mẽ cảm thấy cần phải giải thích tại sao chúng ta có nhiều số liệu này.

Đây là lưu ý của tôi về SSE và RMSE:

Số liệu đầu tiên: Tổng các lỗi bình phương (SSE). Các tên khác, Residual Sum of Squares (RSS), Sum of Squared Residuals (SSR).

Nếu chúng ta ở trong cộng đồng tối ưu hóa, SSE được sử dụng rộng rãi. Đó là bởi vì nó là mục tiêu trong tối ưu hóa, trong đó tối ưu hóa

giảm thiểuβ Xβ-y2

e= =Xβ-ye2= =eTe

Số liệu thứ hai: Lỗi trung bình bình phương gốc (RMSE) . Tên khác, độ lệch trung bình bình phương gốc.

RMSE là

1N(Xβ-y)= =1NeTe

N là số điểm dữ liệu.

y

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.