Ma trận phương sai hiệp phương sai của các lỗi trong hồi quy tuyến tính


12

Ma trận lỗi var / cov được tính theo các gói phân tích thống kê trong thực tế như thế nào?

Ý tưởng này là rõ ràng với tôi trong lý thuyết. Nhưng không phải trong thực tế. Ý tôi là, nếu tôi có một vectơ các biến ngẫu nhiên , tôi hiểu rằng ma trận phương sai / hiệp phương sai sẽ được cung cấp sản phẩm bên ngoài của các vectơ lệch từ: .X=(X1,X2,,Xn)ΣΣ=E[(XE(X))(XE(X))]

Nhưng khi tôi có một mẫu, các lỗi quan sát của tôi không phải là các biến ngẫu nhiên. Hoặc tốt hơn là họ, nhưng chỉ khi tôi lấy một số mẫu giống hệt nhau từ cùng một dân số. Mặt khác, chúng được đưa ra. Vì vậy, một lần nữa câu hỏi của tôi là: làm thế nào một gói thống kê có thể tạo ra ma trận var / cov bắt đầu từ một danh sách các quan sát (tức là một mẫu) được cung cấp bởi nhà nghiên cứu?


Các lỗi quan sát của bạn là chức năng của một biến ngẫu nhiên (y) và do đó chúng là ngẫu nhiên. Có điều kiện trên X một mình, họ không được đưa ra.
user603

1
Vâng, tôi hoàn toàn đồng ý về điều đó. Nhưng những gì bạn nói hoạt động trong lý thuyết. Nếu tôi vẽ, giả sử, 100 mẫu ngẫu nhiên có kích thước giống hệt nhau từ cùng một quần thể, mỗi lỗi quan sát sẽ là một biến ngẫu nhiên có (0, sigma ^ 2). Điều gì sẽ xảy ra nếu, thay vào đó, tôi chỉ vẽ một mẫu? Trong trường hợp đó, giá trị trung bình của lỗi của mỗi quan sát là chính lỗi đó. Có rõ ràng những gì tôi đang nói? Vì vậy, điều tôi đang cố gắng hiểu là, làm thế nào một gói như Stata tính toán ma trận phương sai hiệp phương sai chỉ sử dụng một mẫu được rút ra từ dân số?
Riccardo

Câu trả lời:


7

Ma trận hiệp phương sai cho một mô hình loại thường được tính là trong đó là tổng bình phương còn lại, và là mức độ tự do (thường là số lượng quan sát trừ đi số lượng tham số).y=Xβ+ϵ

(XtX)1σ2d
σ2σ2=i(yiXiβ^)2d

Đối với các lỗi tiêu chuẩn mạnh và hoặc cụm, sản phẩm được sửa đổi một chút. Cũng có thể có các cách khác để tính ma trận hiệp phương sai, ví dụ như được đề xuất bởi kỳ vọng của các sản phẩm bên ngoài.XtX


3
  1. Ước tính OLS của phương sai lỗi , :σ2

s2=ε^ε^np

Điều này được bao gồm trong Hồi quy thực tế và Anova sử dụng R của Julian J. Faraway, trang 21 .

Ví dụ về tính toán của nó trong R, dựa trên mô hình tuyến tính dặm mỗi gallon thụt lùi trên nhiều thông số kỹ thuật mẫu xe nằm trong mtcarscơ sở dữ liệu: ols = lm(mpg ~ disp + drat + wt, mtcars). Đây là các tính toán thủ công và đầu ra của lm()hàm:

> rdf = nrow(X) - ncol(X)                    # Residual degrees of freedom
> s.sq = as.vector((t(ols$residuals) %*% ols$residuals) / rdf) 
>                                            # s square (OLS estimate of sigma square)
> (sigma = sqrt(s.sq))                       # Residual standar error
[1] 2.950507
> summary(ols)

Call:
lm(formula = mpg ~ disp + drat + wt, data = mtcars)
...
Residual standard error: 2.951 on 28 degrees of freedom
  1. Phương sai - Ma trận hiệp phương sai của các hệ số ước tính , :β^

Var[β^X]=σ2(XX)1

ước tính như trong trang 8 của tài liệu trực tuyến này như

Var^[β^X]=s2(XX)1
> X = model.matrix(ols)                             # Model matrix X
> XtX = t(X) %*% X                                  # X transpose X
> Sigma = solve(XtX) * s.sq                         # Variance - covariance matrix
> all.equal(Sigma, vcov(ols))                       # Same as built-in formula
[1] TRUE
> sqrt(diag(Sigma))                                 # Calculated Std. Errors of coef's
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 
> summary(ols)[[4]][,2]                             # Output of lm() function
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 

2

Với hồi quy tuyến tính, chúng tôi đang điều chỉnh mô hình . là biến phụ thuộc, là biến dự đoán (giải thích). Chúng tôi sử dụng dữ liệu được cung cấp cho chúng tôi (tập huấn luyện hoặc mẫu) để ước tính dân số . Các không được coi là các biến ngẫu nhiên. Các là ngẫu nhiên vì thành phần lỗi.Y=βX+εYXβXY


Xin chào Rajiv, cảm ơn bạn đã sửa chữa. Vì vậy, bạn có thể giải thích làm thế nào Stata (hoặc bất kỳ gói thống kê nào khác), bắt đầu từ Y (và epsilon), quản lý để lấy ra ma trận phương sai hiệp phương sai Sigma không?
Riccardo

bằng cách tính toán . e^e^
dùng603

Đồng ý với user603. Vui lòng kiểm tra trang 21 của cran.r-project.org/doc/contrib/Faraway-PRA.pdf . Điều này dựa trên R nhưng bao gồm một cuộc thảo luận tốt về lý thuyết đằng sau hồi quy tuyến tính.
Rajiv Sambasivan

Chào cả hai, cảm ơn bạn, trước hết. Tôi cũng đồng ý với bạn, user603 và tôi đang mong đợi câu trả lời này. Nhưng nếu ma trận var / cov được tính bằng cách tính sản phẩm bên ngoài của các vectơ lỗi, điều này có nghĩa là cov giữa các thành phần lỗi trong hầu hết các trường hợp sẽ không bằng 0 vì giả thuyết độc lập sẽ ngụ ý. Đúng? Đây là những gì tôi nghi ngờ xoay quanh. Rajiv, tôi đã xem hướng dẫn tốt mà bạn đề xuất nhưng không thể tìm thấy câu trả lời. Cảm ơn bạn trước cho bất kỳ trả lời trong tương lai.
Riccardo
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.