Được rồi, vì vậy tôi đang cố gắng để hiểu hồi quy tuyến tính. Tôi đã có một bộ dữ liệu và nó trông khá ổn, nhưng tôi bối rối. Đây là tóm tắt mô hình tuyến tính của tôi:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2068621 0.0247002 8.375 4.13e-09 ***
temp 0.0031074 0.0004779 6.502 4.79e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874
F-statistic: 42.28 on 1 and 28 DF, p-value: 4.789e-07
vì vậy, giá trị p thực sự thấp, điều đó có nghĩa là rất khó có được mối tương quan giữa x, y chỉ là tình cờ. Nếu tôi vẽ nó và sau đó vẽ đường hồi quy thì nó trông như thế này: http://s14.directupload.net/images/120923/l83eellv.png (Có nó như một bức tranh nhưng tôi - là một người dùng mới - hiện tại không được phép đăng nó) Dòng màu xanh = khoảng tin cậy Dòng màu xanh = khoảng dự đoán
Bây giờ, rất nhiều điểm không rơi vào khoảng tin cậy, tại sao điều đó lại xảy ra? Tôi nghĩ rằng không có datapoint nào rơi vào đường hồi quy b / c chúng chỉ cách nhau khá xa, nhưng điều tôi không chắc chắn: Đây có phải là vấn đề thực sự không? Chúng vẫn ở xung quanh đường hồi quy và bạn hoàn toàn có thể thấy một mô hình. Nhưng như vậy đã đủ chưa? Tôi đang cố gắng tìm ra nó, nhưng tôi cứ tự hỏi mình những câu hỏi tương tự lặp đi lặp lại.
Những gì tôi nghĩ đến cho đến nay: Khoảng tin cậy nói rằng nếu bạn tính toán nhiều lần CI, thì trong 95% số lần trung bình thực sự rơi vào CI. Vì vậy: Nó không phải là một vấn đề mà dp không rơi vào nó, vì đây không phải là phương tiện thực sự. Mặt khác, khoảng dự đoán cho biết, nếu bạn tính toán PI nhiều lần, trong 95% số lần GIÁ TRỊ thực sự rơi vào khoảng đó. Vì vậy, điều khá quan trọng là phải có những điểm trong đó (mà tôi có). Sau đó, tôi đã đọc PI luôn phải có phạm vi rộng hơn CI. Tại sao vậy? Đây là những gì tôi đã làm:
conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))
và sau đó tôi vẽ nó bằng cách:
matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")
Bây giờ, nếu tôi tính CI và PI cho dữ liệu bổ sung, không quan trọng tôi chọn phạm vi rộng bao nhiêu, tôi có được các dòng chính xác như trên. Tôi không thể hiểu. Điều đó nghĩa là gì? Điều này sau đó sẽ là:
conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))
cho x mới tôi chọn các chuỗi khác nhau. Nếu chuỗi có số lần quan sát khác với các biến trong hồi quy của tôi, tôi sẽ nhận được cảnh báo. Tại sao lại như vậy?