Lấy công thức cho các giới hạn dự đoán trong mô hình tuyến tính (nghĩa là: các khoảng dự đoán)


18

Hãy lấy ví dụ sau:

set.seed(342)
x1 <- runif(100)
x2 <- runif(100)
y <- x1+x2 + 2*x1*x2 + rnorm(100)
fit <- lm(y~x1*x2)

Điều này tạo ra một mô hình của y dựa trên x1 và x2, sử dụng hồi quy OLS. Nếu chúng ta muốn dự đoán y cho một x_vec nhất định, chúng ta có thể chỉ cần sử dụng công thức chúng ta nhận được từ summary(fit).

Tuy nhiên, điều gì sẽ xảy ra nếu chúng ta muốn dự đoán các dự đoán thấp hơn và cao hơn của y? (cho một mức độ tự tin nhất định).

Làm thế nào sau đó chúng ta sẽ xây dựng công thức?


Các khoảng tin cậy vào New Quan sát phần của trang này có thể giúp đỡ.
GaBorgulya

@Tal Xin lỗi, nhưng tôi không thực sự rõ ràng về ý nghĩa thực sự của bạn khi "dự đoán các dự đoán thấp hơn và cao hơn của y". Nó có liên quan gì đến các dải dự đoán hoặc dung sai không?
chl

@Tal - một vài truy vấn. Khi bạn nói ".. y dựa trên x1 và x2, sử dụng hồi quy OLS." , bạn có nghĩa là bạn tạo một mô hình tuyến tính và ước tính các tham số bằng OLS . Tôi có đúng không và câu hỏi của @ chl - bạn có muốn dự đoán giới hạn dưới và trên cho khoảng dự đoán không?
suncoolsu

@chl, xin lỗi vì không rõ ràng hơn. Tôi đang tìm kiếm hai công thức sẽ đưa ra một khoảng thời gian sẽ "bắt" giá trị "thực" của 95% thời gian. Tôi cảm thấy tôi đang sử dụng định nghĩa cho CI như thế nào, khi có lẽ tôi nên sử dụng một số thuật ngữ khác, xin lỗi về điều đó ...
Tal Galili

@suncoolsu - vâng và vâng.
Tal Galili

Câu trả lời:


25

Bạn sẽ cần số học ma trận. Tôi không chắc chắn Excel sẽ đi với điều đó như thế nào. Dù sao, đây là các chi tiết.

Giả sử hồi quy của bạn được viết như .y=Xβ+e

Hãy là một vector hàng chứa các giá trị của các dự đoán cho các dự báo (trong định dạng giống như X ). Sau đó, dự báo được đưa ra bởi y = X * β = X * ( X ' X ) - 1 X ' Y với một sai liên σ 2 [ 1 + X * ( X ' X ) - 1 (XX

y^=Xβ^=X(XX)1XY
σ2[1+X(XX)1(X)].
Sau đó, một khoảng thời gian dự đoán 95% có thể được tính toán (giả sử lỗi phân phối bình thường) như y ± 1,96 σ Điều này tính đến độ không đảm bảo do thuật ngữ lỗievà độ không đảm bảo trong các ước tính hệ số. Tuy nhiên, nó bỏ qua bất kỳ sai sót trong X *. Vì vậy, nếu các giá trị tương lai của các yếu tố dự đoán là không chắc chắn, thì khoảng dự đoán được tính bằng biểu thức này sẽ quá hẹp.
y^±1.96σ^1+X(XX)1(X).
eX

1
+1, câu trả lời xuất sắc. Mặc dù vậy, tôi cần lưu ý rằng mô hình hồi quy đó luôn ước tính kỳ vọng có điều kiện, vì vậy nó cũng tốt như các biến hồi quy của nó. Vì vậy, nhận xét cuối cùng mặc dù là rất tốt, nó không thực sự cần thiết, vì nếu bạn xây dựng mô hình hồi quy, bạn phải tin tưởng vào các hồi quy.
mpiktas

y^=Xβ+X(XX)1Xevary^=varX(XX)1Xe=σ2X(XX)1(X)

y^

N×N

X

7

Bạn có tình cờ sau các loại dự đoán khác nhau? Các predict.lmtrang hướng dẫn có

 ## S3 method for class 'lm'
 predict(object, newdata, se.fit = FALSE, scale = NULL, df = Inf, 
         interval = c("none", "confidence", "prediction"),
         level = 0.95, type = c("response", "terms"),
         terms = NULL, na.action = na.pass,
         pred.var = res.var/weights, weights = 1, ...)

Đặt 'khoảng' chỉ định tính toán khoảng tin cậy hoặc dự đoán (dung sai) ở 'mức' được chỉ định, đôi khi được gọi là khoảng hẹp so với khoảng rộng.

Đó có phải là những gì bạn có trong tâm trí?


Xin chào Dirk, đó thực sự là những gì tôi muốn tìm, nhưng tôi muốn các trái phiếu trên và dưới ở dạng công thức (để thực hiện sau này trong một số dạng phần mềm thống kê thấp, ví dụ, excel ...)
Tal Galili

ps: Bây giờ tôi thấy rằng có một chỉnh sửa cho tiêu đề câu hỏi của tôi có thể khiến bạn nghĩ rằng tôi đang hỏi về tham số khoảng dự đoán.lm (mà tôi không phải) :)
Tal Galili

8
Bạn đang lạm dụng thuật ngữ ở đây. Excel không phải là phần mềm thống kê.
Dirk Eddelbuettel

1
Bạn nói đúng, giá thầu của tôi, còn "ứng dụng bảng tính" thì sao?
Tal Galili

3
Tôi có thể sống với điều đó; nó gọi ma quỷ bằng tên của nó ;-)
Dirk Eddelbuettel

6

@Tal: Tôi có thể đề nghị Kutner et al là một nguồn tuyệt vời cho các mô hình tuyến tính.

E(Y|Xvec)

E(Y|Xvec)Y^ ±αY^Y^Y^σ2nXvecX¯)2σ2(XiX¯)2


1
(+1) để phân biệt. Tuy nhiên, tôi tin rằng OP đang yêu cầu (1) chứ không phải (2) (và tôi đã chỉnh sửa tiêu đề của câu hỏi cho phù hợp). Cũng lưu ý rằng công thức của bạn dường như giả định hồi quy chỉ phụ thuộc vào một biến.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.