Hình dạng khoảng tin cậy cho các giá trị dự đoán trong hồi quy tuyến tính

69

Tôi đã nhận thấy rằng khoảng tin cậy cho các giá trị dự đoán trong hồi quy tuyến tính có xu hướng thu hẹp xung quanh giá trị trung bình của bộ dự đoán và chất béo xung quanh giá trị tối thiểu và tối đa của bộ dự đoán. Điều này có thể được nhìn thấy trong các ô của 4 hồi quy tuyến tính này:

nhập mô tả hình ảnh ở đây

Ban đầu tôi nghĩ điều này là do hầu hết các giá trị của các yếu tố dự đoán tập trung xung quanh giá trị trung bình của yếu tố dự đoán. Tuy nhiên, sau đó tôi nhận thấy rằng khoảng giữa hẹp của khoảng tin cậy sẽ xảy ra ngay cả khi nhiều giá trị được tập trung xung quanh các cực trị của công cụ dự đoán, như trong hồi quy tuyến tính phía dưới bên trái, rất nhiều giá trị của công cụ dự đoán tập trung quanh mức tối thiểu người dự đoán.

có ai có thể giải thích tại sao khoảng tin cậy cho các giá trị dự đoán trong hồi quy tuyến tính có xu hướng bị thu hẹp ở giữa và chất béo ở cực trị không?

— luciano
nguồn

86

Tôi sẽ thảo luận về nó một cách trực quan.

Cả khoảng tin cậy và khoảng dự đoán trong hồi quy đều tính đến thực tế là phần chặn và độ dốc là không chắc chắn - bạn ước tính các giá trị từ dữ liệu, nhưng giá trị dân số có thể khác nhau (nếu bạn lấy một mẫu mới, bạn sẽ có ước tính khác các giá trị).

Một đường hồi quy sẽ đi qua và tốt nhất là tập trung thảo luận về các thay đổi cho phù hợp xung quanh điểm đó - đó là suy nghĩ về đường (trong công thức này, ). $(\bar x, \bar y)$ $y= a + b(x-\bar x)$ $\hat a = \bar y$

Nếu đường đi qua điểm đó , nhưng độ dốc cao hơn hoặc thấp hơn một chút (nghĩa là nếu chiều cao của đường tại giá trị trung bình cố định nhưng độ dốc hơi khác một chút), thì điều đó sẽ như thế nào nhìn? $(\bar x, \bar y)$

Bạn sẽ thấy rằng dòng mới sẽ di chuyển ra xa khỏi dòng hiện tại gần cuối hơn là gần giữa, tạo ra một loại X nghiêng ở trung bình (vì mỗi dòng màu tím bên dưới làm tương ứng với dòng màu đỏ ; các đường màu tím biểu thị độ dốc ước tính hai lỗi tiêu chuẩn của độ dốc). $\pm$

nhập mô tả hình ảnh ở đây

Ví dụ, nếu bạn đã vẽ một tập hợp các đường như vậy với độ dốc thay đổi một chút so với ước tính của nó, bạn sẽ thấy phân phối của các giá trị dự đoán gần cuối 'quạt ra' (ví dụ, hãy tưởng tượng vùng giữa hai đường màu tím được tô màu xám, bởi vì chúng tôi đã lấy mẫu một lần nữa và vẽ nhiều độ dốc như vậy gần với ước tính; Chúng tôi có thể hiểu được điều này bằng cách khởi động một đường thẳng qua điểm ( )). Đây là một ví dụ sử dụng 2000 mẫu với bootstrap tham số: $\bar{x},\bar{y}$

Thay vào đó, nếu bạn tính đến độ không đảm bảo trong hằng số (làm cho đường truyền gần nhưng không hoàn toàn xuyên qua ), điều đó sẽ di chuyển đường lên và xuống, do đó, các khoảng cho trung bình tại bất kỳ nào sẽ ngồi trên và dưới dòng trang bị. $(\bar x, \bar y)$ $x$

nhập mô tả hình ảnh ở đây

(Ở đây, các dòng màu tím là hai lỗi tiêu chuẩn của thuật ngữ không đổi hai bên của dòng ước tính). $\pm$

Khi bạn thực hiện cả hai cùng một lúc (đường có thể lên hoặc xuống một chút và độ dốc có thể hơi dốc hơn hoặc nông hơn), sau đó bạn nhận được một số lượng chênh lệch ở mức trung bình, , vì sự không chắc chắn trong không đổi, và bạn nhận được một số quạt bổ sung do độ không chắc chắn của độ dốc, giữa chúng tạo ra hình dạng hyperbol đặc trưng của lô của bạn. $\bar x$

Đó là trực giác.

Bây giờ, nếu bạn thích, chúng ta có thể xem xét một chút đại số (nhưng nó không cần thiết):

Đây thực sự là căn bậc hai của tổng bình phương của hai hiệu ứng đó - bạn có thể thấy nó trong công thức của khoảng tin cậy. Hãy xây dựng các mảnh:

Các sai số chuẩn với được gọi là (nhớ ở đây là giá trị kỳ vọng của tại trung bình của , không phải là đánh chặn thông thường, nó chỉ là một sai số chuẩn của trung bình). Đó là lỗi tiêu chuẩn của vị trí của dòng ở mức trung bình ( ). $a$ $b$ $\sigma /\sqrt{n}$ $a$ $y$ $x$ $\bar x$

Các sai số chuẩn với tiếng là . Ảnh hưởng của độ không đảm bảo về độ dốc ở một số giá trị được nhân với khoảng cách của bạn so với giá trị trung bình ( ) (vì thay đổi về mức độ là thay đổi độ dốc nhân với khoảng cách bạn di chuyển), cho . $b$ $a$ $\sigma/\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}$ $x^*$ $x^*-\bar x$ $(x^*-\bar x)\cdot\sigma/\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}$

Bây giờ hiệu quả tổng thể chỉ là căn bậc hai của tổng các bình phương của hai điều này (tại sao? Vì chênh lệch thứ không tương quan bổ sung, và nếu bạn viết dòng của bạn trong dưới dạng , các ước tính của và không tương quan. Vì vậy, lỗi tiêu chuẩn tổng thể là căn bậc hai của phương sai tổng thể, và phương sai là tổng của phương sai của các thành phần - nghĩa là chúng ta có $y= a + b(x-\bar x)$ $a$ $b$

$\sqrt{(\sigma /\sqrt{n})^2+ \left[(x^*-\bar x)\cdot\sigma/\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}\right]^2 }$

Một thao tác đơn giản nhỏ đưa ra thuật ngữ thông thường cho lỗi tiêu chuẩn của ước tính giá trị trung bình tại : $x^*$

$\sigma\sqrt{\frac{1}{n}+ \frac{(x^*-\bar x)^2}{\sum_{i=1}^n (x_i-\bar{x})^2} }$

Nếu bạn vẽ đó là một hàm của , bạn sẽ thấy nó tạo thành một đường cong (trông giống như một nụ cười) với mức tối thiểu tại , sẽ lớn hơn khi bạn di chuyển ra ngoài. Đó là những gì được thêm vào / trừ khỏi dòng được trang bị (tốt, bội số của nó là, để có được mức độ tin cậy mong muốn). $x^*$ $\bar x$

[Với các khoảng dự đoán, cũng có sự thay đổi về vị trí do tính biến thiên của quy trình; điều này thêm một thuật ngữ khác làm thay đổi các giới hạn lên và xuống, tạo ra sự lan rộng rộng hơn nhiều và bởi vì thuật ngữ đó thường chi phối tổng dưới căn bậc hai, độ cong ít rõ rệt hơn.]

— Glen_b
nguồn

Cảm ơn Glen_b rất trực quan. Tôi đã không nghĩ rằng đó là khoảng tin cậy.

— luciano

1

Câu trả lời được chấp nhận thực sự mang lại trực giác cần thiết. Nó chỉ bỏ lỡ hình dung của việc kết hợp cả hai yếu tố không chắc chắn tuyến tính và góc, trong đó đề cập rất độc đáo trở lại các âm mưu trong câu hỏi. Vì vậy, ở đây nó đi. Chúng ta hãy gọi a'và b'sự không chắc chắn của a, và b, tương ứng, số lượng thường được trả về bởi bất kỳ gói thống kê phổ biến nào. Sau đó, chúng tôi có, ngoài sự phù hợp nhất a*x + b, bốn đường có thể được vẽ (trong trường hợp này là 1 đồng biến x):

(a+a')*x + b+b'
(a-a')*x + b-b'
(a+a')*x + b-b'
(a-a')*x + b+b'

Đây là bốn dòng được thu thập trong biểu đồ dưới đây. Đường kẻ đen dày ở giữa đại diện cho sự phù hợp nhất mà không có sự không chắc chắn. Vì vậy, để vẽ các shader "hyperbolic", người ta nên lấy các giá trị tối đa và tối thiểu của bốn dòng này, thực tế là bốn phân đoạn dòng, không có đường cong ở đó (tôi tự hỏi chính xác các lô fency này vẽ đường cong như thế nào, dường như không bất kỳ chính xác với tôi).

Tôi hy vọng điều này sẽ thêm một cái gì đó vào câu trả lời hay từ @Glen_b.

— ouranos
nguồn