Khoảng tin cậy và dự đoán của mô hình hồi quy tuyến tính


9

Được rồi, vì vậy tôi đang cố gắng để hiểu hồi quy tuyến tính. Tôi đã có một bộ dữ liệu và nó trông khá ổn, nhưng tôi bối rối. Đây là tóm tắt mô hình tuyến tính của tôi:

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.2068621  0.0247002   8.375 4.13e-09 ***
temp        0.0031074  0.0004779   6.502 4.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874 
F-statistic: 42.28 on 1 and 28 DF,  p-value: 4.789e-07 

vì vậy, giá trị p thực sự thấp, điều đó có nghĩa là rất khó có được mối tương quan giữa x, y chỉ là tình cờ. Nếu tôi vẽ nó và sau đó vẽ đường hồi quy thì nó trông như thế này: http://s14.directupload.net/images/120923/l83eellv.png (Có nó như một bức tranh nhưng tôi - là một người dùng mới - hiện tại không được phép đăng nó) Dòng màu xanh = khoảng tin cậy Dòng màu xanh = khoảng dự đoán

Bây giờ, rất nhiều điểm không rơi vào khoảng tin cậy, tại sao điều đó lại xảy ra? Tôi nghĩ rằng không có datapoint nào rơi vào đường hồi quy b / c chúng chỉ cách nhau khá xa, nhưng điều tôi không chắc chắn: Đây có phải là vấn đề thực sự không? Chúng vẫn ở xung quanh đường hồi quy và bạn hoàn toàn có thể thấy một mô hình. Nhưng như vậy đã đủ chưa? Tôi đang cố gắng tìm ra nó, nhưng tôi cứ tự hỏi mình những câu hỏi tương tự lặp đi lặp lại.

Những gì tôi nghĩ đến cho đến nay: Khoảng tin cậy nói rằng nếu bạn tính toán nhiều lần CI, thì trong 95% số lần trung bình thực sự rơi vào CI. Vì vậy: Nó không phải là một vấn đề mà dp không rơi vào nó, vì đây không phải là phương tiện thực sự. Mặt khác, khoảng dự đoán cho biết, nếu bạn tính toán PI nhiều lần, trong 95% số lần GIÁ TRỊ thực sự rơi vào khoảng đó. Vì vậy, điều khá quan trọng là phải có những điểm trong đó (mà tôi có). Sau đó, tôi đã đọc PI luôn phải có phạm vi rộng hơn CI. Tại sao vậy? Đây là những gì tôi đã làm:

conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))

và sau đó tôi vẽ nó bằng cách:

matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")

Bây giờ, nếu tôi tính CI và PI cho dữ liệu bổ sung, không quan trọng tôi chọn phạm vi rộng bao nhiêu, tôi có được các dòng chính xác như trên. Tôi không thể hiểu. Điều đó nghĩa là gì? Điều này sau đó sẽ là:

conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))

cho x mới tôi chọn các chuỗi khác nhau. Nếu chuỗi có số lần quan sát khác với các biến trong hồi quy của tôi, tôi sẽ nhận được cảnh báo. Tại sao lại như vậy?

Câu trả lời:


3

Tôi hiểu một số câu hỏi của bạn nhưng những người khác không rõ ràng. Hãy để tôi trả lời và nêu một số sự thật và có thể điều đó sẽ làm sáng tỏ tất cả sự nhầm lẫn của bạn.

Sự phù hợp bạn có là rất tốt. Khoảng tin cậy nên rất chặt chẽ. Có hai kiểu chữ của vùng tin cậy có thể được xem xét, Vùng bsimultanoues được dùng để bao quát toàn bộ hàm hồi quy thực với mức độ tin cậy nhất định.

Những cái khác mà bạn đang xem là khoảng tin cậy cho các điểm hồi quy được trang bị. Chúng chỉ nhằm mục đích bao gồm giá trị được trang bị của y tại (các) giá trị đã cho của hiệp phương sai. Chúng không có ý định bao gồm các giá trị y ở các giá trị khác của hiệp phương sai. Trong thực tế, nếu các khoảng rất chặt chẽ như trong trường hợp của bạn thì chúng sẽ không bao gồm nhiều điểm nếu có bất kỳ điểm dữ liệu nào khi bạn rời khỏi (các) giá trị cố định của (các) đồng biến. Đối với loại bảo hiểm đó, bạn cần có được các đường cong tự tin đồng thời (các đường cong giới hạn trên và dưới).

Bây giờ đúng là nếu bạn dự đoán ay ở một giá trị nhất định của hiệp phương sai và bạn muốn cùng một mức độ tin cậy cho khoảng dự đoán như bạn đã sử dụng cho khoảng tin cậy cho y ở giá trị đã cho của hiệp phương sai thì khoảng đó sẽ rộng hơn. Lý do là mô hình cho bạn biết rằng sẽ có thêm biến thiên bởi vì một y mới sẽ có lỗi độc lập riêng phải được tính trong khoảng. Thành phần lỗi đó không nhập vào các ước tính dựa trên dữ liệu được sử dụng phù hợp.


Tôi xin lỗi, tôi vẫn không hiểu lắm. Bạn đã giải thích 2 loại khoảng tin cậy, nhưng bạn muốn nói đến loại nào khi bạn nói "loại tôi đang xem"? b / c Tôi đã vẽ cả dự đoán và khoảng tin cậy và tôi gặp vấn đề trong việc hiểu sự khác biệt. Ngoài ra, tôi đã thêm một số lệnh R vào bài đăng trước của mình để làm rõ những gì tôi đã làm
lisa

Các đường cong không làm rõ liệu các dải tin cậy có được nhận hay không bằng cách xây dựng các đường cong độ tin cậy đồng thời hoặc chỉ đơn giản là tạo ra một kết nối trơn tru của các khoảng tin cậy riêng lẻ. Nếu chúng đồng thời, bạn sẽ không thấy nhiều điểm được trang bị bên ngoài đường cong. Nhưng như tôi đã chỉ ra nó có thể xảy ra với các khoảng thời gian riêng lẻ. Tôi chưa xem bản chỉnh sửa bao gồm mã R.
Michael R. Chernick

Tôi không biết R đủ tốt để trả lời các câu hỏi cụ thể của R. Điều tôi không biết rằng một chuyên gia R có thể nói với bạn là liệu đường cong niềm tin và đường cong dự đoán có kết nối các khoảng tin cậy riêng lẻ hay đang tạo ra các đường cong đồng thời hay không. Ngoài ra mã của bạn làm những gì bạn dự định làm?
Michael R. Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.