So sánh các phương pháp khoảng tin cậy trên một ví dụ từ ISL
Cuốn sách "Giới thiệu về học tập thống kê" của tác giả Tibshirani, James, Hastie cung cấp một ví dụ ở trang 267 về khoảng tin cậy cho hồi quy logistic đa thức bậc 4 về dữ liệu lương . Trích dẫn cuốn sách:
Chúng tôi mô hình sự kiện nhị phân bằng cách sử dụng hồi quy logistic với đa thức bậc 4. Xác suất tiền lương được trang bị vượt quá $ 250.000 được hiển thị bằng màu xanh lam, cùng với khoảng tin cậy ước tính 95%.wage>250
Dưới đây là tóm tắt nhanh về hai phương pháp để xây dựng các khoảng thời gian đó cũng như nhận xét về cách triển khai chúng từ đầu
Khoảng thời gian biến đổi Wald / Endpoint
- Tính giới hạn trên và dưới của khoảng tin cậy cho tổ hợp tuyến tính (sử dụng Wald CI)xTβ
- Áp dụng một phép biến đổi đơn điệu cho các điểm cuối để có được xác suất.F(xTβ)
Vì là một phép biến đổi đơn điệu củax T βPr ( xTβ) = =F( xTβ)xTβ
[Pr ( xTβ)L≤Pr ( xTβ) ≤Pr ( xTβ)Bạn] = [F( xTβ)L≤F( xTβ) ≤F( xTβ)Bạn]
Cụ thể, điều này có nghĩa là tính toán và sau đó áp dụng biến đổi logit cho kết quả để có được giới hạn dưới và trên:βTx ± z*SE( βTx )
[exTβ−z∗SE(xTβ)1+exTβ−z∗SE(xTβ),exTβ+z∗SE(xTβ)1+exTβ+z∗SE(xTβ),]
Tính toán sai số chuẩn
Lý thuyết khả năng tối đa cho chúng ta biết rằng phương sai gần đúng của có thể được tính bằng ma trận hiệp phương sai của các hệ số hồi quy bằng cách sử dụngΣxTβΣ
Var(xTβ)=xTΣx
Xác định ma trận thiết kế và ma trận làVXV
X = ⎡⎣⎢⎢⎢⎢⎢11⋮1x1,1x2,1⋮xn,1……⋱…x1,px2,p⋮xn,p⎤⎦⎥⎥⎥⎥⎥ V = ⎡⎣⎢⎢⎢⎢⎢π^1(1−π^1)0⋮00π^2(1−π^2)⋮0……⋱…00⋮π^n(1−π^n)⎤⎦⎥⎥⎥⎥⎥
trong đó là giá trị của biến thứ cho các quan sát thứ và đại diện cho xác suất dự đoán cho quan sát .xi,jjiπ^ii
Ma trận hiệp phương sai sau đó có thể được tìm thấy là: và lỗi tiêu chuẩn làΣ=(XTVX)−1SE(xTβ)=Var(xTβ)−−−−−−−−√
Khoảng tin cậy 95% cho xác suất dự đoán sau đó có thể được vẽ như là
Khoảng tin cậy phương pháp Delta
Cách tiếp cận là tính toán phương sai của xấp xỉ tuyến tính của hàm và sử dụng phương pháp này để xây dựng các khoảng tin cậy mẫu lớn.F
Var[F(xTβ^)]≈∇FT Σ ∇F
Trong đó là độ dốc và ma trận hiệp phương sai ước tính. Lưu ý rằng trong một chiều: ∇Σ
∂F(xβ)∂β=∂F(xβ)∂xβ∂xβ∂β=xf(xβ)
Trong trường hợp là đạo hàm của . Điều này khái quát trong trường hợp đa biếnfF
Var[F(xTβ^)]≈fT xT Σ x f
Trong trường hợp của chúng ta F là hàm logistic (mà chúng ta sẽ biểu thị ) có đạo hàm làπ(xTβ)
π′(xTβ)=π(xTβ)(1−π(xTβ))
Bây giờ chúng ta có thể xây dựng một khoảng tin cậy bằng cách sử dụng phương sai được tính toán ở trên.
C.I.=[Pr(xβ^)−z∗Var[π(xβ^)]−−−−−−−−−√≤Pr(xβ^)+z∗Var[π(xβ^)]−−−−−−−−−√]
Ở dạng vector cho trường hợp đa biến
C.I.=[π(xTβ^)±z∗(π(xTβ^)(1−π(xTβ^)))TxT Var[β^] x π(xTβ^)(1−π(xTβ^))]−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√
- Lưu ý rằng đại diện cho một điểm dữ liệu duy nhất trong , tức là một hàng duy nhất của ma trận thiết kếxRp+1X
Một kết luận mở
Nhìn vào các ô QQ bình thường cho cả xác suất và tỷ lệ cược log âm cho thấy cả hai đều không được phân phối bình thường. Điều này có thể giải thích sự khác biệt?
Nguồn: