Tại sao sai số chuẩn của phần chặn tăng thêm


13

Sai số chuẩn của thuật ngữ đánh chặn ( β 0 ) trong y = β 1 x + β 0 + ε được cho bởi S E ( β 0 ) 2 = σ 2 [ 1β^0y=β1x+β0+ε trong đóˉxlà giá trị trung bình củaxi's.

SE(β^0)2=σ2[1n+x¯2i=1n(xix¯)2]
x¯xi

Từ những gì tôi hiểu, Sở GDCK định lượng uncertainty- của bạn ví dụ, trong 95% của các mẫu, khoảng sẽ chứa đúng β 0 . Tôi không hiểu làm thế nào SE, một thước đo của sự không chắc chắn, tăng với ˉ x . Nếu tôi chỉ đơn giản là thay đổi dữ liệu của mình, sao cho ˉ x = 0 , sự không chắc chắn của tôi sẽ giảm? Điều đó có vẻ không hợp lý.[β^02SE,β^0+2SE]β0x¯x¯=0

Một cách giải thích tương tự được - trong phiên bản uncentered dữ liệu của tương ứng với dự đoán của tôi tại x = 0 , trong khi ở các dữ liệu làm trung tâm, beta 0 tương ứng với dự đoán của tôi tại x = ˉ x . Vì vậy, thực hiện điều này thì có nghĩa là sự không chắc chắn của tôi về dự đoán của tôi tại x = 0 là không chắc chắn lớn hơn của tôi về dự đoán của tôi tại x = ˉ x ? Điều đó có vẻ không hợp lý quá, sai số ε có cùng phương sai cho tất cả các giá trị của xβ^0x=0β^0x=x¯x=0x=x¯ϵx, do đó, sự không chắc chắn của tôi trong các giá trị dự đoán của tôi phải giống nhau cho tất cả .x

Có những khoảng trống trong sự hiểu biết của tôi Tôi chắc chắn. Ai đó có thể giúp tôi hiểu những gì đang xảy ra?


3
Bạn đã bao giờ thoái lui bất cứ điều gì chống lại một ngày? Nhiều hệ thống máy tính bắt đầu ngày tháng của chúng trong quá khứ xa xôi, thường là hơn 100 hoặc hơn 2000 năm trước. Việc chặn ước tính giá trị của dữ liệu của bạn ngoại suy ngược với thời gian bắt đầu đó. Bạn có thể chắc chắn như thế nào về tổng sản phẩm quốc nội của Iraq trong năm 0 CE dựa trên việc hồi quy một loạt dữ liệu của thế kỷ 21?
whuber

Tôi đồng ý, nó có ý nghĩa nếu bạn nghĩ về nó theo cách này. Điều này, và câu trả lời của gung, làm cho mọi thứ rõ ràng.
elexhulk

2
Câu trả lời này đưa ra một lời giải thích trực quan, với các sơ đồ) về cách nó phát sinh, bằng cách đúc đường được trang bị theo mức độ phù hợp với giá trị trung bình (đường được trang bị đi qua ( ˉ x , ˉ y ) ) và cho biết tại sao vị trí của nơi đường có thể đi ra ngoài khi bạn di chuyển ra khỏi ˉ x (nguyên nhân là do độ không đảm bảo ở độ dốc). x¯(x¯,y¯)x¯
Glen_b -Reinstate Monica

Câu trả lời:


16

Bởi vì đường hồi quy phù hợp với bình phương tối thiểu thông thường sẽ nhất thiết phải đi qua giá trị trung bình của dữ liệu của bạn (nghĩa là ), miễn là bạn không triệt tiêu sự không chắc chắn của chặn chặn về giá trị thực của dốc không ảnh hưởng đến vị trí dọc của dòng tại giá trị trung bình của x (ví dụ, tại y ˉ x ). Điều này chuyển thành độ không đảm bảo theo chiều dọc ít hơn ở ˉ x so với bạn càng ở xa ˉ x . Nếu chặn, trong đó x = 0ˉ x(x¯,y¯)xy^x¯x¯x¯x=0x¯, sau đó điều này sẽ giảm thiểu sự không chắc chắn của bạn về giá trị thực của . Trong thuật ngữ toán học, điều này chuyển thành giá trị nhỏ nhất có thể của sai số chuẩn cho β 0 . β0β^0

Đây là một ví dụ nhanh trong R:

set.seed(1)                           # this makes the example exactly reproducible
x0      = rnorm(20, mean=0, sd=1)     # the mean of x varies from 0 to 10
x5      = rnorm(20, mean=5, sd=1)
x10     = rnorm(20, mean=10, sd=1)
y0      = 5 + 1*x0  + rnorm(20)       # all data come from the same  
y5      = 5 + 1*x5  + rnorm(20)       #  data generating process
y10     = 5 + 1*x10 + rnorm(20)
model0  = lm(y0~x0)                   # all models are fit the same way
model5  = lm(y5~x5)
model10 = lm(y10~x10)

enter image description here

Con số này hơi bận rộn, nhưng bạn có thể thấy dữ liệu từ một số nghiên cứu khác nhau trong đó phân phối của gần hơn hoặc xa hơn từ 0 . Các dốc khác nhau một chút từ nghiên cứu để nghiên cứu, nhưng phần lớn là tương tự nhau. (Lưu ý tất cả họ đều đi qua X được khoanh tròn mà tôi sử dụng để đánh dấu ( ˉ x , ˉ y ) .) Tuy nhiên, sự không chắc chắn về giá trị thực sự của những sườn gây ra sự không chắc chắn về y để mở rộng hơn nữa bạn nhận được từ ˉ x , có nghĩa là S E ( βx0(x¯,y¯)y^x¯SE(β^0)là rất rộng đối với dữ liệu được lấy mẫu trong vùng lân cận và rất hẹp đối với nghiên cứu trong đó dữ liệu được lấy mẫu gần x = 0 . x=10x=0


Chỉnh sửa để đáp ứng với lời nhận xét: Thật không may, canh giữa dữ liệu của bạn sau khi bạn có chúng sẽ không giúp bạn nếu bạn muốn biết khả năng giá trị tại một số x giá trị x mới . Thay vào đó, bạn cần tập trung vào bộ sưu tập dữ liệu của mình ở điểm bạn quan tâm ngay từ đầu. Để hiểu những vấn đề này đầy đủ hơn, nó có thể giúp bạn đọc câu trả lời của tôi ở đây: Khoảng dự đoán hồi quy tuyến tính . yxxnew


x=xxx¯=0x¯=x

(xx¯)2x¯2

@elexhulk, tôi đã thêm một số thông tin để trả lời bình luận của bạn, bạn cũng có thể muốn xem tài liệu được liên kết. Hãy cho tôi biết nếu bạn vẫn cần thêm.
gung - Phục hồi Monica

SE(β^1)=σ2(xix¯)2xnewSE(β^1)(xnewx¯)2σ2nβ^1β^0σ2n+σ2(xnewx¯)2(xix¯)2

1
σ2ny¯x=x¯y¯nσ2n
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.