Khoảng dự báo hồi quy tuyến tính


24

Nếu xấp xỉ tuyến tính tốt nhất (sử dụng bình phương tối thiểu) của các điểm dữ liệu của tôi là dòng , làm thế nào tôi có thể tính được lỗi xấp xỉ? Nếu tôi tính độ lệch chuẩn của sự khác biệt giữa các quan sát và dự đoán , thì sau này tôi có thể nói rằng giá trị thực (nhưng không được quan sát) thuộc về khoảng ( ) với xác suất ~ 68%, giả sử phân phối bình thường?y=mx+bei=real(xi)(mxi+b)yr=real(x0)[ypσ,yp+σ]yp=mx0+b

Làm rõ:

Tôi đã thực hiện các quan sát liên quan đến một hàm bằng cách đánh giá nó một số điểm . Tôi phù hợp với những quan sát này cho một dòng . Đối với mà tôi không quan sát, tôi muốn biết có thể lớn đến mức nào . Sử dụng phương pháp trên, có đúng không khi nói rằng với đầu dò. ~ 68%?f(x)xil(x)=mx+bx0f(x0)l(x0)f(x0)[l(x0)σ,l(x0)+σ]


1
Tôi nghĩ rằng bạn đang hỏi về khoảng dự đoán. Tuy nhiên, lưu ý rằng bạn sử dụng " ", thay vì " ". Đây có phải là một lỗi đánh máy? Chúng tôi không dự đoán x s. xiyix
gung - Phục hồi Monica

@gung: Tôi sử dụng để biểu thị thời gian ví dụ và y giá trị của một số biến tại thời điểm đó, vì vậy y = f ( x ) có nghĩa là tôi đã thực hiện quan sát y tại thời điểm x . Tôi muốn biết các dự đoán hàm phù hợp có thể cách các giá trị thực của y bao xa. Điều đó có ý nghĩa? Hàm r e a l ( x i ) trả về giá trị "đúng" của y tại x i và các điểm dữ liệu của tôi bao gồm ( x i , r e a lxyy=f(x)yxreal(xi)yxi . (xi,real(xi))
bmx

1
Điều đó có vẻ hoàn toàn hợp lý. Các phần tôi đang tập trung vào, ví dụ: " ", thông thường chúng ta nghĩ về các lỗi / phần dư trong mô hình reg là " e i = y i - ( m x i + b ) ". SD của phần dư không có vai trò trong việc tính toán các khoảng dự đoán. Đó là " x iei=real(xi)(mxi+b)ei=yi(mxi+b)xi"Điều đó thật kỳ lạ đối với tôi; Tôi tự hỏi liệu đó có phải là một lỗi đánh máy hay bạn đang hỏi về điều gì đó mà tôi không nhận ra.
gung - Tái lập Monica

Tôi nghĩ rằng tôi thấy; Tôi đã bỏ lỡ chỉnh sửa của bạn. Điều này cho thấy hệ thống hoàn toàn có tính quyết định và nếu bạn có quyền truy cập vào chức năng cơ bản thực sự , bạn luôn có thể dự đoán hoàn toàn không có lỗi. Đó không phải là cách chúng ta thường nghĩ về các mô hình reg. yi
gung - Phục hồi Monica

4
bmx, có vẻ như tôi có một ý tưởng rõ ràng về câu hỏi của bạn và nhận thức tốt về một số vấn đề. Bạn có thể quan tâm để xem xét ba chủ đề liên quan chặt chẽ. stats.stackexchange.com/questions/17773 mô tả các khoảng dự đoán theo thuật ngữ phi kỹ thuật; stats.stackexchange.com/questions/26702 đưa ra mô tả toán học hơn; và trong stats.stackexchange.com/questions/9131 , Rob Hyndman cung cấp công thức bạn tìm kiếm. Nếu những điều này không trả lời đầy đủ câu hỏi của bạn, ít nhất họ có thể cung cấp cho bạn một ký hiệu và từ vựng chuẩn để làm rõ nó.
whuber

Câu trả lời:


30

@whuber đã chỉ cho bạn ba câu trả lời hay, nhưng có lẽ tôi vẫn có thể viết một cái gì đó có giá trị. Câu hỏi rõ ràng của bạn, như tôi hiểu, là:

Với mô hình trang bị của y^i=m^xi+b^ (thông báo tôi đã thêm 'mũ') , và giả sử dư của tôi được phân phối bình thường, , tôi có thể dự đoán rằng một khi chưa phản ứng không quan sát được, y n e w , với giá trị dự báo được biết, x n e w , sẽ nằm trong khoảng ( y - σ e , y + σN(0,σ^e2)ynewxnew , với xác suất 68%?(y^σe,y^+σe)

Theo trực giác, câu trả lời có vẻ như là "có", nhưng câu trả lời thực sự là có thể . Đây sẽ là trường hợp khi các tham số (nghĩa là & σ ) được biết và không có lỗi. Vì bạn ước tính các tham số này, chúng tôi cần tính đến sự không chắc chắn của chúng. m,b,σ

Trước tiên hãy nghĩ về độ lệch chuẩn của phần dư của bạn. Bởi vì điều này được ước tính từ dữ liệu của bạn, có thể có một số lỗi trong ước tính. Do đó, phân phối bạn nên sử dụng để hình thành khoảng dự đoán của mình phải là lỗi , không phải là bình thường. Tuy nhiên, vì t hội tụ nhanh đến mức bình thường, nên điều này ít có khả năng là một vấn đề trong thực tế. tdf errort

Vì vậy, chúng ta có thể chỉ cần sử dụng y mới ± t ( 1 - α / 2 , df lỗi ) s , thay vì y mới ± z ( 1 - α / 2 ) s , và đi về cách vui vẻ của chúng tôi? Tiếc là không có. Vấn đề lớn hơn là có sự không chắc chắn về ước tính lại giá trị trung bình có điều kiện của phản ứng tại địa điểm đó do sự không chắc chắn trong ước tính của bạn m & b . Như vậyy^new±t(1α/2, df error)sy^new±z(1α/2)sm^b^độ lệch chuẩn của dự đoán của bạn cần kết hợp nhiều hơn chỉ sserror . Bởi vì chênh lệch thêm , phương sai ước tính của dự đoán sẽ là: Thông báo rằng " x " được subscripted để đại diện cho giá trị cụ thể cho cái mới quan sát và " s 2 " tương ứng được đăng ký. Đó là, khoảng dự đoán của bạn phụ thuộc vào vị trí quan sát mới dọc theo x

spredictions(new)2=serror2+Var(m^xnew+b^)
xs2xtrục. Độ lệch chuẩn của các dự đoán của bạn có thể được ước tính thuận tiện hơn với công thức sau: Là một mặt lưu ý thú vị, chúng ta có thể suy ra một vài sự thật về khoảng thời gian dự đoán từ phương trình này. Thứ nhất, khoảng thời gian dự đoán sẽ hẹp nhiều dữ liệu hơn chúng tôi đã có khi chúng tôi xây dựng mô hình dự báo (điều này là bởi vì có ít không chắc chắn trongm&b). Thứ hai, dự đoán sẽ chính xác nhất nếu chúng được thực hiện ởgiá trịtrung bình của cácgiá trịxbạn đã sử dụng để phát triển mô hình của mình, vì tử số cho thuật ngữ thứ ba sẽ là0. Lý do là trong các trường hợp bình thường, không có sự không chắc chắn về độ dốc ước tính tại giá trị trung bình củax
spredictions(new)=serror2(1+1N+(xnewx¯)2(xix¯)2)
m^b^x0x, chỉ có một số điểm không chắc chắn về vị trí thẳng đứng thực sự của đường hồi quy. Do đó, một số bài học cần rút ra để xây dựng các mô hình dự đoán là: nhiều dữ liệu hơn là hữu ích, không phải với việc tìm kiếm "ý nghĩa", mà là cải thiện độ chính xác của các dự đoán trong tương lai; và rằng bạn nên tập trung nỗ lực thu thập dữ liệu của mình vào khoảng thời gian mà bạn sẽ cần đưa ra dự đoán trong tương lai (để giảm thiểu tử số đó), nhưng hãy truyền bá các quan sát từ trung tâm đó càng nhiều càng tốt (để tối đa hóa mẫu số đó).

t

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.