Giải thích đầu ra lm () của R


234

Các trang trợ giúp trong R giả sử tôi biết những con số đó có nghĩa gì, nhưng tôi thì không. Tôi đang cố gắng để thực sự hiểu trực giác mọi con số ở đây. Tôi sẽ chỉ đăng đầu ra và nhận xét về những gì tôi tìm ra. Có thể (sẽ) có những sai lầm, vì tôi sẽ chỉ viết những gì tôi giả định. Chủ yếu tôi muốn biết giá trị t trong các hệ số có nghĩa là gì và tại sao chúng in lỗi tiêu chuẩn còn lại.

Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.09907 -0.23626 -0.01064  0.23345  1.17532 

Đây là tóm tắt 5 điểm của phần dư (giá trị trung bình của chúng luôn là 0, phải không?). Các con số có thể được sử dụng (tôi đoán ở đây) để nhanh chóng xem liệu có bất kỳ ngoại lệ lớn nào không. Ngoài ra, bạn có thể thấy nó ở đây nếu phần dư cách xa phân phối bình thường (chúng nên được phân phối bình thường).

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       3.30843    0.06210  53.278  < 2e-16 ***
iris$Petal.Width -0.20936    0.04374  -4.786 4.07e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Ước tính , được tính bằng hồi quy bình phương nhỏ nhất. Ngoài ra, lỗi tiêu chuẩn là . Tôi muốn biết cách tính toán này. Tôi không biết giá trị t và giá trị p tương ứng đến từ đâu. Tôi biết nên được phân phối bình thường, nhưng giá trị t được tính như thế nào?βi^σβiβ^

Residual standard error: 0.407 on 148 degrees of freedom

1npϵTϵ , tôi đoán vậy. Nhưng tại sao chúng ta tính toán điều đó, và nó nói gì với chúng ta?

Multiple R-squared: 0.134,  Adjusted R-squared: 0.1282 

R2=sy^2sy2 , đó là . Tỷ lệ này gần bằng 1 nếu các điểm nằm trên một đường thẳng và 0 nếu chúng là ngẫu nhiên. Bình phương R điều chỉnh là gì?i=1n(yi^y¯)2i=1n(yiy¯)2

F-statistic: 22.91 on 1 and 148 DF,  p-value: 4.073e-06 

F và p cho toàn bộ mô hình, không chỉ cho các s như trước. Giá trị F là . Càng lớn, nó càng không chắc là 'không có bất kỳ ảnh hưởng nào.βi βsy^2ϵiβ


phần dư không quá sai lệch so với tính quy tắc, tại sao bạn lại nghĩ như vậy?
nico

@nico: Tôi nghĩ @Alexx Hardt đã nói theo giả thuyết. Tức là một lần có thể sử dụng tóm tắt năm số để xem liệu phần dư có bị lệch so với bình thường hay không
Gavin Simpson

@Gavin Simpson: bạn nói đúng, tôi đọc sai câu. Bỏ qua bình luận trước đây của tôi.
nico

9
Phân minh nhỏ: Bạn không thể nói bất cứ điều gì về tính quy tắc hoặc tính không quy tắc chỉ dựa trên 5 lượng tử đó. Tất cả những gì bạn có thể nói dựa trên tóm tắt đó là liệu phần dư ước tính có xấp xỉ đối xứng quanh không. Bạn có thể chia các lượng tử được báo cáo cho sai số chuẩn còn lại ước tính và so sánh các giá trị này với các lượng tử tương ứng của N (0,1), nhưng nhìn vào biểu đồ QQ có thể có ý nghĩa hơn.
fabian

5
Một lưu ý ở đây: mô hình không phải là , thay vào đó là . được mô tả chính xác trong câu trả lời dưới đây, nhưng nó không đề cập rõ ràng rằng nó bị nhầm lẫn trong câu hỏi, vì vậy ai đó có thể không nhận thấy sự khác biệt. S S m o d e l / S S e r r o r M S m o d e l / M S e r r o r FFSSmodel/SSerrorMSmodel/MSerrorF
gung

Câu trả lời:


202

Tóm tắt năm điểm

vâng, ý tưởng là đưa ra một bản tóm tắt nhanh chóng về phân phối. Nó phải gần như đối xứng về giá trị trung bình, trung vị phải gần bằng 0, các giá trị 1Q và 3Q lý tưởng là các giá trị gần giống nhau.

Hệ số vàβi^s

Mỗi hệ số trong mô hình là một biến ngẫu nhiên Gaussian (Bình thường). Các là ước tính giá trị trung bình của phân phối của biến ngẫu nhiên đó, và sai số chuẩn là căn bậc hai của phương sai của phân phối đó. Đây là thước đo độ không chắc chắn trong ước tính của .βi^βi^

Bạn có thể xem cách chúng được tính toán (cũng là các công thức toán học được sử dụng) trên Wikipedia . Lưu ý rằng mọi chương trình thống kê tự tôn trọng sẽ không sử dụng các phương trình toán học tiêu chuẩn để tính toán vì thực hiện chúng trên máy tính có thể dẫn đến mất độ chính xác lớn trong các tính toán.βi^

t -statistic

Số liệu thống kê là các ước tính ( ) chia cho các lỗi tiêu chuẩn của chúng ( ), ví dụ: . Giả sử bạn có cùng một mô hình trong đối tượng như Q:tβi^σi^ti=βi^σi^mod

> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)

sau đó các giá trị báo cáo R được tính là:t

> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width 
  53.277950   -4.786461 

Trong trường hợp coef(mod)là , và cung cấp cho các căn bậc hai của các yếu tố đường chéo của ma trận hiệp phương sai của các thông số mô hình, đó là những sai số chuẩn của các thông số ( ).βi^sqrt(diag(vcov(mod)))σi^

Giá trị p là xác suất đạt được mộtlớn bằng hoặc lớn hơn giá trị t tuyệt đối quan sát được nếu giả thuyết null ( ) là đúng, trong đó là . Chúng được tính là (sử dụng từ phía trên):|t|H0H0βi=0tstats

> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
 (Intercept)  Petal.Width 
1.835999e-98 4.073229e-06

Vì vậy, chúng tôi tính toán xác suất đuôi trên để đạt được các giá trị mà chúng tôi đã thực hiện từ phân phối với mức độ tự do bằng với mức độ tự do còn lại của mô hình. Điều này thể hiện xác suất đạt được giá trị lớn hơn giá trị tuyệt đối của s được quan sát . Nó được nhân với 2, vì tất nhiên cũng có thể lớn theo hướng tiêu cực.ttttt

Lỗi tiêu chuẩn còn lại

Lỗi tiêu chuẩn còn lại là ước tính của tham số . Giả định trong bình phương tối thiểu thông thường là phần dư được mô tả riêng lẻ bằng phân phối Gaussian (bình thường) với giá trị trung bình 0 và độ lệch chuẩn . Các liên quan đến các giả định sai liên tục; mỗi phần dư có cùng phương sai và phương sai đó bằng với .σσσσ2

Điều chỉnhR2

Điều chỉnh được tính là:R2

1(1R2)n1np1

được điều chỉnh giống với , nhưng được điều chỉnh về độ phức tạp (tức là số lượng tham số) của mô hình. Với một mô hình có một tham số duy nhất, với nhất định , nếu chúng ta thêm một tham số khác vào mô hình này, của mô hình mới phải tăng, ngay cả khi tham số được thêm vào không có sức mạnh thống kê. Các tài khoản được điều chỉnh cho điều này bằng cách bao gồm số lượng tham số trong mô hình.R2R2R2R2R2

F -statistic

Các là tỉ số của hai phương sai ( ), phương sai giải thích bằng các thông số trong mô hình (tổng bình phương của hồi quy, SSR) và phương sai dư hoặc không giải thích được (tổng bình phương của lỗi, SSE). Bạn có thể thấy điều này tốt hơn nếu chúng ta lấy bảng ANOVA cho mô hình thông qua :FSSR/SSEanova()

> anova(mod)
Analysis of Variance Table

Response: Sepal.Width
             Df  Sum Sq Mean Sq F value    Pr(>F)    
Petal.Width   1  3.7945  3.7945   22.91 4.073e-06 ***
Residuals   148 24.5124  0.1656                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Các giống nhau ở đầu ra ANOVA và đầu ra. Các cột chứa hai phương sai và . Chúng ta có thể tính xác suất đạt được một lớn theo giả thuyết không có hiệu lực, từ phân phối với 1 và 148 độ tự do. Đây là những gì được báo cáo trong cột cuối cùng của bảng ANOVA. Trong trường hợp đơn giản của một công cụ dự đoán liên tục, duy nhất (theo ví dụ của bạn), , đó là lý do tại sao các giá trị p giống nhau. Sự tương đương này chỉ giữ trong trường hợp đơn giản này.F3,7945 / 0,1656 = 22,91 F F F = t 2 P e t một l . W i d t hsummary(mod)Mean Sq3.7945/0.1656=22.91FFF=tPetal.Width2


5
@Gavin (+1) Phản hồi tuyệt vời với hình minh họa đẹp!
chl

2
Công việc tốt. Một điều bạn có thể làm rõ, liên quan đến việc tính toán các giá trị t: sqrt (diag (vcov (mod))) tạo ra SE của các ước tính. Đây là những SE giống nhau được xuất ra trong bản tóm tắt mô hình. Dễ dàng và rõ ràng hơn chỉ cần nói rằng t = Ước tính / SEestimate. Theo nghĩa đó, nó không khác gì bất kỳ giá trị t nào khác.
Brett

2
Ft2

2
@Jay; cảm ơn. Tôi nghĩ về việc đề cập đến sự tương đương đó quá. Không chắc nó có quá nhiều chi tiết hay không? Tôi sẽ quảng cáo một cái gì đó về điều này trong một mo.
Gavin Simpson

2
"Sẽ không sử dụng các phương trình toán học tiêu chuẩn để tính toán" Họ sẽ sử dụng cái gì?
SmallChess

0

Ronen Israel và Adrienne Ross (AQR) đã viết một bài báo rất hay về chủ đề này: Đo lường các yếu tố tiếp xúc: Sử dụng và lạm dụng .

Để tóm tắt (xem: trang 8),

  • R2
  • Khi thống kê t lớn hơn hai, chúng ta có thể nói với độ tin cậy 95% (hoặc 5% khả năng chúng ta sai) rằng ước tính beta khác biệt về mặt thống kê so với không. Nói cách khác, chúng ta có thể nói rằng một danh mục đầu tư có sự tiếp xúc đáng kể với một yếu tố.

lm()Tóm tắt của R tính toán giá trị p Pr(>|t|). Giá trị p càng nhỏ thì hệ số này càng có ý nghĩa. Giá trị P = 0,05 là ngưỡng hợp lý.


6
Các loại sai trong bài báo này, được minh họa bằng "Khi thống kê t lớn hơn hai, chúng ta có thể nói (với ... 5% khả năng chúng ta sai) rằng ước tính beta khác với thống kê 0" [p . 11], được thảo luận tại stats.stackexchange.com/questions/311763stats.stackexchange.com/questions/26450 .
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.