Tóm tắt năm điểm
vâng, ý tưởng là đưa ra một bản tóm tắt nhanh chóng về phân phối. Nó phải gần như đối xứng về giá trị trung bình, trung vị phải gần bằng 0, các giá trị 1Q và 3Q lý tưởng là các giá trị gần giống nhau.
Hệ số vàβi^s
Mỗi hệ số trong mô hình là một biến ngẫu nhiên Gaussian (Bình thường). Các là ước tính giá trị trung bình của phân phối của biến ngẫu nhiên đó, và sai số chuẩn là căn bậc hai của phương sai của phân phối đó. Đây là thước đo độ không chắc chắn trong ước tính của .βi^βi^
Bạn có thể xem cách chúng được tính toán (cũng là các công thức toán học được sử dụng) trên Wikipedia . Lưu ý rằng mọi chương trình thống kê tự tôn trọng sẽ không sử dụng các phương trình toán học tiêu chuẩn để tính toán vì thực hiện chúng trên máy tính có thể dẫn đến mất độ chính xác lớn trong các tính toán.βi^
t -statistic
Số liệu thống kê là các ước tính ( ) chia cho các lỗi tiêu chuẩn của chúng ( ), ví dụ: . Giả sử bạn có cùng một mô hình trong đối tượng như Q:tβi^σi^ti=βi^σi^mod
> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)
sau đó các giá trị báo cáo R được tính là:t
> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width
53.277950 -4.786461
Trong trường hợp coef(mod)
là , và cung cấp cho các căn bậc hai của các yếu tố đường chéo của ma trận hiệp phương sai của các thông số mô hình, đó là những sai số chuẩn của các thông số ( ).βi^sqrt(diag(vcov(mod)))
σi^
Giá trị p là xác suất đạt được mộtlớn bằng hoặc lớn hơn giá trị t tuyệt đối quan sát được nếu giả thuyết null ( ) là đúng, trong đó là . Chúng được tính là (sử dụng từ phía trên):|t|H0H0βi=0tstats
> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
(Intercept) Petal.Width
1.835999e-98 4.073229e-06
Vì vậy, chúng tôi tính toán xác suất đuôi trên để đạt được các giá trị mà chúng tôi đã thực hiện từ phân phối với mức độ tự do bằng với mức độ tự do còn lại của mô hình. Điều này thể hiện xác suất đạt được giá trị lớn hơn giá trị tuyệt đối của s được quan sát . Nó được nhân với 2, vì tất nhiên cũng có thể lớn theo hướng tiêu cực.ttttt
Lỗi tiêu chuẩn còn lại
Lỗi tiêu chuẩn còn lại là ước tính của tham số . Giả định trong bình phương tối thiểu thông thường là phần dư được mô tả riêng lẻ bằng phân phối Gaussian (bình thường) với giá trị trung bình 0 và độ lệch chuẩn . Các liên quan đến các giả định sai liên tục; mỗi phần dư có cùng phương sai và phương sai đó bằng với .σσσσ2
Điều chỉnhR2
Điều chỉnh được tính là:R2
1−(1−R2)n−1n−p−1
được điều chỉnh giống với , nhưng được điều chỉnh về độ phức tạp (tức là số lượng tham số) của mô hình. Với một mô hình có một tham số duy nhất, với nhất định , nếu chúng ta thêm một tham số khác vào mô hình này, của mô hình mới phải tăng, ngay cả khi tham số được thêm vào không có sức mạnh thống kê. Các tài khoản được điều chỉnh cho điều này bằng cách bao gồm số lượng tham số trong mô hình.R2R2R2R2R2
F -statistic
Các là tỉ số của hai phương sai ( ), phương sai giải thích bằng các thông số trong mô hình (tổng bình phương của hồi quy, SSR) và phương sai dư hoặc không giải thích được (tổng bình phương của lỗi, SSE). Bạn có thể thấy điều này tốt hơn nếu chúng ta lấy bảng ANOVA cho mô hình thông qua :FSSR/SSEanova()
> anova(mod)
Analysis of Variance Table
Response: Sepal.Width
Df Sum Sq Mean Sq F value Pr(>F)
Petal.Width 1 3.7945 3.7945 22.91 4.073e-06 ***
Residuals 148 24.5124 0.1656
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Các giống nhau ở đầu ra ANOVA và đầu ra. Các cột chứa hai phương sai và . Chúng ta có thể tính xác suất đạt được một lớn theo giả thuyết không có hiệu lực, từ phân phối với 1 và 148 độ tự do. Đây là những gì được báo cáo trong cột cuối cùng của bảng ANOVA. Trong trường hợp đơn giản của một công cụ dự đoán liên tục, duy nhất (theo ví dụ của bạn), , đó là lý do tại sao các giá trị p giống nhau. Sự tương đương này chỉ giữ trong trường hợp đơn giản này.F3,7945 / 0,1656 = 22,91 F F F = t 2 P e t một l . W i d t hsummary(mod)
Mean Sq
3.7945/0.1656=22.91FFF=t2Petal.Width