@whuber đã chỉ cho bạn ba câu trả lời hay, nhưng có lẽ tôi vẫn có thể viết một cái gì đó có giá trị. Câu hỏi rõ ràng của bạn, như tôi hiểu, là:
Với mô hình trang bị của y^i=m^xi+b^ (thông báo tôi đã thêm 'mũ') , và giả sử dư của tôi được phân phối bình thường, , tôi có thể dự đoán rằng một khi chưa phản ứng không quan sát được, y n e w , với giá trị dự báo được biết, x n e w , sẽ nằm trong khoảng ( y - σ e , y + σN(0,σ^2e)ynewxnew , với xác suất 68%?(y^−σe,y^+σe)
Theo trực giác, câu trả lời có vẻ như là "có", nhưng câu trả lời thực sự là có thể . Đây sẽ là trường hợp khi các tham số (nghĩa là & σ ) được biết và không có lỗi. Vì bạn ước tính các tham số này, chúng tôi cần tính đến sự không chắc chắn của chúng. m,b,σ
Trước tiên hãy nghĩ về độ lệch chuẩn của phần dư của bạn. Bởi vì điều này được ước tính từ dữ liệu của bạn, có thể có một số lỗi trong ước tính. Do đó, phân phối bạn nên sử dụng để hình thành khoảng dự đoán của mình phải là lỗi , không phải là bình thường. Tuy nhiên, vì t hội tụ nhanh đến mức bình thường, nên điều này ít có khả năng là một vấn đề trong thực tế. tdf errort
Vì vậy, chúng ta có thể chỉ cần sử dụng y mới ± t ( 1 - α / 2 , df lỗi ) s , thay vì y mới ± z ( 1 - α / 2 ) s , và đi về cách vui vẻ của chúng tôi? Tiếc là không có. Vấn đề lớn hơn là có sự không chắc chắn về ước tính lại giá trị trung bình có điều kiện của phản ứng tại địa điểm đó do sự không chắc chắn trong ước tính của bạn m & b . Như vậyy^new±t(1−α/2, df error)sy^new±z(1−α/2)sm^b^độ lệch chuẩn của dự đoán của bạn cần kết hợp nhiều hơn chỉ sserror . Bởi vì chênh lệch thêm , phương sai ước tính của dự đoán sẽ là:
Thông báo rằng " x " được subscripted để đại diện cho giá trị cụ thể cho cái mới quan sát và " s 2 " tương ứng được đăng ký. Đó là, khoảng dự đoán của bạn phụ thuộc vào vị trí quan sát mới dọc theo x
s2predictions(new)=s2error+Var(m^xnew+b^)
xs2xtrục. Độ lệch chuẩn của các dự đoán của bạn có thể được ước tính thuận tiện hơn với công thức sau:
Là một mặt lưu ý thú vị, chúng ta có thể suy ra một vài sự thật về khoảng thời gian dự đoán từ phương trình này. Thứ nhất, khoảng thời gian dự đoán sẽ hẹp nhiều dữ liệu hơn chúng tôi đã có khi chúng tôi xây dựng mô hình dự báo (điều này là bởi vì có ít không chắc chắn trong
m&
b). Thứ hai, dự đoán sẽ chính xác nhất nếu chúng được thực hiện ởgiá trịtrung bình của cácgiá trị
xbạn đã sử dụng để phát triển mô hình của mình, vì tử số cho thuật ngữ thứ ba sẽ là
0. Lý do là trong các trường hợp bình thường, không có sự không chắc chắn về độ dốc ước tính tại giá trị trung bình của
xspredictions(new)=s2error(1+1N+(xnew−x¯)2∑(xi−x¯)2)−−−−−−−−−−−−−−−−−−−−−−−−√
m^b^x0x, chỉ có một số điểm không chắc chắn về vị trí thẳng đứng thực sự của đường hồi quy. Do đó, một số bài học cần rút ra để xây dựng các mô hình dự đoán là: nhiều dữ liệu hơn là hữu ích, không phải với việc tìm kiếm "ý nghĩa", mà là cải thiện độ chính xác của các dự đoán trong tương lai; và rằng bạn nên tập trung nỗ lực thu thập dữ liệu của mình vào khoảng thời gian mà bạn sẽ cần đưa ra dự đoán trong tương lai (để giảm thiểu tử số đó), nhưng hãy truyền bá các quan sát từ trung tâm đó càng nhiều càng tốt (để tối đa hóa mẫu số đó).
t