Hiểu hình dạng và tính toán của các dải tin cậy trong hồi quy tuyến tính


33

Tôi đang cố gắng tìm hiểu nguồn gốc của dải tin cậy cong có liên quan đến hồi quy tuyến tính OLS và cách nó liên quan đến khoảng tin cậy của các tham số hồi quy (độ dốc và chặn), ví dụ (sử dụng R):

require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)

nhập mô tả hình ảnh ở đây

Có vẻ như băng tần có liên quan đến giới hạn của các đường được tính toán với mức chặn 2,5% và độ dốc 97,5%, cũng như với mức chặn 97,5% và độ dốc 2,5% (mặc dù không hoàn toàn):

xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))

nhập mô tả hình ảnh ở đây

Điều tôi không hiểu là hai điều:

  1. Còn sự kết hợp giữa độ dốc 2,5% và độ chặn 2,5% cũng như độ dốc 97,5% và độ chặn 97,5% thì sao? Chúng đưa ra các dòng rõ ràng bên ngoài ban nhạc được vẽ ở trên. Có thể tôi không hiểu ý nghĩa của khoảng tin cậy, nhưng nếu trong 95% trường hợp ước tính của tôi nằm trong khoảng tin cậy, thì đây có vẻ là kết quả có thể xảy ra?
  2. Điều gì xác định khoảng cách tối thiểu giữa giới hạn trên và dưới (tức là gần với điểm mà hai dòng được thêm ở trên chặn)?

Tôi đoán cả hai câu hỏi phát sinh bởi vì tôi không biết / hiểu cách các dải này thực sự được tính toán.

Làm cách nào tôi có thể tính các giới hạn trên và dưới bằng cách sử dụng khoảng tin cậy của các tham số hồi quy (mà không cần dựa vào dự đoán () hoặc một hàm tương tự, tức là bằng tay)? Tôi đã cố gắng giải mã hàm dự đoán.lm trong R, nhưng mã hóa nằm ngoài tôi. Tôi đánh giá cao bất kỳ con trỏ nào đối với tài liệu hoặc giải thích phù hợp cho người mới bắt đầu thống kê.

Cảm ơn.


4
Bạn có hai câu trả lời tốt dưới đây. Nếu bạn muốn biết thêm thông tin, nó có thể giúp bạn đọc câu trả lời của tôi ở đây: Khoảng dự đoán hồi quy tuyến tính , liên quan đến các khoảng dự đoán, nhưng ý tưởng này rất giống nhau.
gung - Phục hồi Monica

2
Có một lời giải thích trực quan chi tiết được đưa ra trong bài viết này: Hình dạng khoảng tin cậy cho các giá trị dự đoán trong hồi quy tuyến tính
Glen_b -Reinstate Monica

TA cho các câu trả lời hữu ích và các liên kết tuyệt vời.
David

Câu trả lời:


19

XSY^X

SY^X= =SY|X1n+(X-X¯)2Σtôi= =1n(Xtôi-X¯)2

SY|X

SY|X= =Σtôi= =1n(Ytôi-Y^)2n-2

Y^±tν= =n-2,α/2SY^

YX

β^α^


1
Có một cuốn sách giáo khoa giải thích những công thức này đến từ đâu?
Michael Goerz

1
@MichaelGoerz Bất kỳ số liệu thống kê giới thiệu, thống kê sinh học, kinh tế lượng, vv sách giáo khoa bao gồm hồi quy tuyến tính bình phương nhỏ nhất bình phương nên có.
Alexis

Tôi có Wasserman - Tất cả các số liệu thống kê, James et al - Giới thiệu về học thống kê, và Hastie et al. - Các yếu tố của học thống kê. Tôi đã không thể tìm thấy các phương trình cho các dải tin cậy hồi quy tuyến tính trong bất kỳ trong số chúng. Bạn có số chương / eq cho bất kỳ trong số này, hoặc một số cuốn sách có sẵn rộng rãi khác không?
Michael Goerz

2
Không có cuốn sách nào bạn đề cập đến là những loại sách mà Alexis đang thảo luận. Cuốn sách của Fox về hồi quy ứng dụng có nó nếu tôi nhớ chính xác.
Glen_b -Reinstate Monica

1
@MichaelGoerz Cũng như cả Pagano, M. và Gauvreau, K. (2000). Nguyên tắc của thống kê sinh học . Duxbury Press, Pacific Grove, CA, tái bản lần 2 và Glantz, SA (2011). mồi của thống kê sinh học . McGraw-Hill Medical, New York, NY, phiên bản thứ 7 mặc dù chúng không phải là văn bản dành riêng cho hồi quy.
Alexis

16

Câu hỏi hay. Điều quan trọng là phải hiểu những khái niệm này và chúng không đơn giản.

y¯y¯y¯

Khi chúng tôi kết hợp tất cả các khoảng tin cậy, với mọi x có thể, nó cung cấp cho chúng tôi các dải màu xám mà bạn thấy trong đầu ra.

Điều này có nghĩa là về mặt chức năng là chúng tôi tin tưởng 95% rằng đường hồi quy thực sự nằm ở đâu đó trong vùng màu xám đó.

Bởi vì các dải tin cậy được tính bằng cách sử dụng khoảng tin cậy 95% cho từng điểm riêng lẻ, nên nó có liên quan rất chặt chẽ với 95% CI cho phần chặn. Trên thực tế, tại x = 0, các cạnh của vùng màu xám sẽ trùng khớp chính xác với 95% CI cho phần chặn, bởi vì đó là cách chúng tôi tạo ra các dải tin cậy. Đó là lý do tại sao các dòng bạn đã thêm ở trên chạm vào rìa của dải màu xám về phía bên trái.

Tuy nhiên, độ dốc có một chút khác biệt. Nó đóng góp vào các giới hạn, như bạn đã thấy ở trên, nhưng độ dốc và giao thoa không thể tách rời trong hồi quy tuyến tính. Vì vậy, bạn không thể thực sự nói "tốt, nếu chặn ở mức tối thiểu của phạm vi CI và độ dốc cũng ở mức tối thiểu thì sao?" Dòng này sẽ tạo ra các điểm nằm ngoài 95% CI của chúng tôi cho nhiều x. Điều này có nghĩa là chúng tôi tự tin 95% rằng đó không phải là đường hồi quy thực sự của chúng tôi.

x¯Sy^x(x-x¯)x= =x¯

Có một powerpoint khá ở đây có thể giúp bạn hình dung một số điều sau: http://www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf


2
Tôi nghĩ rằng tôi đã sửa nó - thay thế yhats bằng ybars. Điều đó có đúng hơn không? Tôi luôn luôn vặn vẹo.
Duncan

Ta. Một điều vẫn chưa rõ ràng với tôi là làm thế nào để làm cho hai tuyên bố sau nhất quán: "Điều này có nghĩa là gì về mặt chức năng là chúng tôi tin tưởng 95% rằng đường hồi quy thực sự nằm ở đâu đó trong vùng màu xám đó." vs "[...] khoảng tin cậy về đánh chặn và độ dốc là những đại lượng khác." Nếu tuyên bố đầu tiên là chính xác, phải có một số mối quan hệ (toán học?) Giữa các TCTD về đánh chặn và độ dốc và dải được vẽ ở trên? Tôi đoán điều này liên quan đến một phần câu hỏi của tôi: Làm thế nào tôi có thể tính toán (nếu có thể) băng tần ở trên bằng cách sử dụng độ dốc và đánh chặn của CI?
David

1
x¯ chúng sẽ đi chệch khỏi các đường mà các giá trị cực trị của các TCTD cho độ dốc và chặn được tạo ra.
Duncan

Bài viết dễ hiểu và một liên kết tốt đẹp! +1
bác sĩ lâm sàng
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.