Tôi sẽ thảo luận về nó một cách trực quan.
Cả khoảng tin cậy và khoảng dự đoán trong hồi quy đều tính đến thực tế là phần chặn và độ dốc là không chắc chắn - bạn ước tính các giá trị từ dữ liệu, nhưng giá trị dân số có thể khác nhau (nếu bạn lấy một mẫu mới, bạn sẽ có ước tính khác các giá trị).
Một đường hồi quy sẽ đi qua và tốt nhất là tập trung thảo luận về các thay đổi cho phù hợp xung quanh điểm đó - đó là suy nghĩ về đường (trong công thức này, ).(x¯,y¯)y=a+b(x−x¯)a^=y¯
Nếu đường đi qua điểm đó , nhưng độ dốc cao hơn hoặc thấp hơn một chút (nghĩa là nếu chiều cao của đường tại giá trị trung bình cố định nhưng độ dốc hơi khác một chút), thì điều đó sẽ như thế nào nhìn?(x¯,y¯)
Bạn sẽ thấy rằng dòng mới sẽ di chuyển ra xa khỏi dòng hiện tại gần cuối hơn là gần giữa, tạo ra một loại X nghiêng ở trung bình (vì mỗi dòng màu tím bên dưới làm tương ứng với dòng màu đỏ ; các đường màu tím biểu thị độ dốc ước tính hai lỗi tiêu chuẩn của độ dốc).±
Ví dụ, nếu bạn đã vẽ một tập hợp các đường như vậy với độ dốc thay đổi một chút so với ước tính của nó, bạn sẽ thấy phân phối của các giá trị dự đoán gần cuối 'quạt ra' (ví dụ, hãy tưởng tượng vùng giữa hai đường màu tím được tô màu xám, bởi vì chúng tôi đã lấy mẫu một lần nữa và vẽ nhiều độ dốc như vậy gần với ước tính; Chúng tôi có thể hiểu được điều này bằng cách khởi động một đường thẳng qua điểm ( )). Đây là một ví dụ sử dụng 2000 mẫu với bootstrap tham số:x¯,y¯
Thay vào đó, nếu bạn tính đến độ không đảm bảo trong hằng số (làm cho đường truyền gần nhưng không hoàn toàn xuyên qua ), điều đó sẽ di chuyển đường lên và xuống, do đó, các khoảng cho trung bình tại bất kỳ nào sẽ ngồi trên và dưới dòng trang bị.(x¯,y¯)x
(Ở đây, các dòng màu tím là hai lỗi tiêu chuẩn của thuật ngữ không đổi hai bên của dòng ước tính).±
Khi bạn thực hiện cả hai cùng một lúc (đường có thể lên hoặc xuống một chút và độ dốc có thể hơi dốc hơn hoặc nông hơn), sau đó bạn nhận được một số lượng chênh lệch ở mức trung bình, , vì sự không chắc chắn trong không đổi, và bạn nhận được một số quạt bổ sung do độ không chắc chắn của độ dốc, giữa chúng tạo ra hình dạng hyperbol đặc trưng của lô của bạn.x¯
Đó là trực giác.
Bây giờ, nếu bạn thích, chúng ta có thể xem xét một chút đại số (nhưng nó không cần thiết):
Đây thực sự là căn bậc hai của tổng bình phương của hai hiệu ứng đó - bạn có thể thấy nó trong công thức của khoảng tin cậy. Hãy xây dựng các mảnh:
Các sai số chuẩn với được gọi là (nhớ ở đây là giá trị kỳ vọng của tại trung bình của , không phải là đánh chặn thông thường, nó chỉ là một sai số chuẩn của trung bình). Đó là lỗi tiêu chuẩn của vị trí của dòng ở mức trung bình ( ).abσ/n−−√ayxx¯
Các sai số chuẩn với tiếng là . Ảnh hưởng của độ không đảm bảo về độ dốc ở một số giá trị được nhân với khoảng cách của bạn so với giá trị trung bình ( ) (vì thay đổi về mức độ là thay đổi độ dốc nhân với khoảng cách bạn di chuyển), cho .baσ/∑ni=1(xi−x¯)2−−−−−−−−−−−√x∗x∗−x¯(x∗−x¯)⋅σ/∑ni=1(xi−x¯)2−−−−−−−−−−−√
Bây giờ hiệu quả tổng thể chỉ là căn bậc hai của tổng các bình phương của hai điều này (tại sao? Vì chênh lệch thứ không tương quan bổ sung, và nếu bạn viết dòng của bạn trong dưới dạng , các ước tính của và không tương quan. Vì vậy, lỗi tiêu chuẩn tổng thể là căn bậc hai của phương sai tổng thể, và phương sai là tổng của phương sai của các thành phần - nghĩa là chúng ta cóy=a+b(x−x¯)ab
(σ/n−−√)2+[(x∗−x¯)⋅σ/∑ni=1(xi−x¯)2−−−−−−−−−−−√]2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√
Một thao tác đơn giản nhỏ đưa ra thuật ngữ thông thường cho lỗi tiêu chuẩn của ước tính giá trị trung bình tại :x∗
σ1n+(x∗−x¯)2∑ni=1(xi−x¯)2−−−−−−−−−−−−√
Nếu bạn vẽ đó là một hàm của , bạn sẽ thấy nó tạo thành một đường cong (trông giống như một nụ cười) với mức tối thiểu tại , sẽ lớn hơn khi bạn di chuyển ra ngoài. Đó là những gì được thêm vào / trừ khỏi dòng được trang bị (tốt, bội số của nó là, để có được mức độ tin cậy mong muốn).x∗x¯
[Với các khoảng dự đoán, cũng có sự thay đổi về vị trí do tính biến thiên của quy trình; điều này thêm một thuật ngữ khác làm thay đổi các giới hạn lên và xuống, tạo ra sự lan rộng rộng hơn nhiều và bởi vì thuật ngữ đó thường chi phối tổng dưới căn bậc hai, độ cong ít rõ rệt hơn.]