Các cách khác nhau để tạo khoảng tin cậy cho tỷ lệ chênh lệch từ hồi quy logistic


12

Tôi đang nghiên cứu cách xây dựng khoảng tin cậy 95% cho tỷ lệ chênh lệch từ các hệ số thu được trong hồi quy logistic. Vì vậy, xem xét mô hình hồi quy logistic,

log(p1p)=α+βx

sao cho x=0 cho nhóm điều khiển và x=1 cho nhóm trường hợp.

Tôi đã đọc rằng cách đơn giản nhất là xây dựng 95% CI cho β sau đó chúng tôi đã áp dụng hàm số mũ, nghĩa là

β^±1.96×SE(β^)exp{β^±1.96×SE(β^)}

Câu hỏi của tôi là:

  1. Lý do lý thuyết mà biện minh cho thủ tục này là gì? Tôi biết odds ratio=exp{β} và các ước tính khả năng tối đa là bất biến. Tuy nhiên, tôi không biết kết nối giữa các yếu tố này.

  2. Phương pháp delta có nên tạo ra khoảng tin cậy 95% giống như quy trình trước không? Sử dụng phương pháp delta,

    exp{β^}˙N(β, exp{β}2Var(β^))

    Sau đó,

    exp{β^}±1.96×exp{β}2Var(β^)

    Nếu không, đó là thủ tục tốt nhất?


1
Tôi cũng thích bootstrap cho CI, nếu tôi có các giá trị tham số hoặc dữ liệu huấn luyện có kích thước đủ.
EngrStudent - Phục hồi Monica

2
Có một cách tốt hơn để làm điều này, xem số liệu thống kê.stackexchange.com/questions/5304 / Để biết chi tiết
mdewey

Câu trả lời:


7
  1. Sự biện minh cho thủ tục là tính quy phạm tiệm cận của MLE cho và kết quả từ các đối số liên quan đến Định lý giới hạn trung tâm.β

  2. Phương thức Delta xuất phát từ việc mở rộng tuyến tính (tức là Taylor bậc nhất) của hàm xung quanh MLE. Sau đó, chúng tôi kêu gọi sự bình thường tiệm cận và không thiên vị của MLE.

Không có triệu chứng cả hai đưa ra cùng một câu trả lời. Nhưng thực tế, bạn sẽ thích cái nhìn gần hơn bình thường. Trong ví dụ này, tôi sẽ ưu tiên cái đầu tiên bởi vì cái sau có khả năng ít đối xứng hơn.


3

So sánh các phương pháp khoảng tin cậy trên một ví dụ từ ISL

Cuốn sách "Giới thiệu về học tập thống kê" của tác giả Tibshirani, James, Hastie cung cấp một ví dụ ở trang 267 về khoảng tin cậy cho hồi quy logistic đa thức bậc 4 về dữ liệu lương . Trích dẫn cuốn sách:

Chúng tôi mô hình sự kiện nhị phân bằng cách sử dụng hồi quy logistic với đa thức bậc 4. Xác suất tiền lương được trang bị vượt quá $ 250.000 được hiển thị bằng màu xanh lam, cùng với khoảng tin cậy ước tính 95%.wmộtge>250

Dưới đây là tóm tắt nhanh về hai phương pháp để xây dựng các khoảng thời gian đó cũng như nhận xét về cách triển khai chúng từ đầu

Khoảng thời gian biến đổi Wald / Endpoint

  • Tính giới hạn trên và dưới của khoảng tin cậy cho tổ hợp tuyến tính (sử dụng Wald CI)xTβ
  • Áp dụng một phép biến đổi đơn điệu cho các điểm cuối để có được xác suất.F(xTβ)

Vì là một phép biến đổi đơn điệu củax T βPr(xTβ)= =F(xTβ)xTβ

[Pr(xTβ)LPr(xTβ)Pr(xTβ)Bạn]= =[F(xTβ)LF(xTβ)F(xTβ)Bạn]

Cụ thể, điều này có nghĩa là tính toán và sau đó áp dụng biến đổi logit cho kết quả để có được giới hạn dưới và trên:βTx±z*SE(βTx)

[exTβzSE(xTβ)1+exTβzSE(xTβ),exTβ+zSE(xTβ)1+exTβ+zSE(xTβ),]

Tính toán sai số chuẩn

Lý thuyết khả năng tối đa cho chúng ta biết rằng phương sai gần đúng của có thể được tính bằng ma trận hiệp phương sai của các hệ số hồi quy bằng cách sử dụngΣxTβΣ

Var(xTβ)=xTΣx

Xác định ma trận thiết kế và ma trận làVXV

X = [1x1,1x1,p1x2,1x2,p1xn,1xn,p]    V = [π^1(1π^1)0Giáo dục00π^2(1-π^2)Giáo dục000Giáo dụcπ^n(1-π^n)]

trong đó là giá trị của biến thứ cho các quan sát thứ và đại diện cho xác suất dự đoán cho quan sát .xi,jjiπ^ii

Ma trận hiệp phương sai sau đó có thể được tìm thấy là: và lỗi tiêu chuẩn làΣ=(XTVX)1SE(xTβ)=Var(xTβ)

Khoảng tin cậy 95% cho xác suất dự đoán sau đó có thể được vẽ như là

nhập mô tả hình ảnh ở đây


Khoảng tin cậy phương pháp Delta

Cách tiếp cận là tính toán phương sai của xấp xỉ tuyến tính của hàm và sử dụng phương pháp này để xây dựng các khoảng tin cậy mẫu lớn.F

Var[F(xTβ^)]FT Σ F

Trong đó là độ dốc và ma trận hiệp phương sai ước tính. Lưu ý rằng trong một chiều: Σ

F(xβ)β=F(xβ)xβxββ=xf(xβ)

Trong trường hợp là đạo hàm của . Điều này khái quát trong trường hợp đa biếnfF

Var[F(xTβ^)]fT xT Σ x f

Trong trường hợp của chúng ta F là hàm logistic (mà chúng ta sẽ biểu thị ) có đạo hàm làπ(xTβ)

π(xTβ)=π(xTβ)(1π(xTβ))

Bây giờ chúng ta có thể xây dựng một khoảng tin cậy bằng cách sử dụng phương sai được tính toán ở trên.

C.I.=[Pr(xβ^)zVar[π(xβ^)]Pr(xβ^)+zVar[π(xβ^)]]

Ở dạng vector cho trường hợp đa biến

C.I.=[π(xTβ^)±z(π(xTβ^)(1π(xTβ^)))TxT  Var[β^]  x  π(xTβ^)(1π(xTβ^))]
  • Lưu ý rằng đại diện cho một điểm dữ liệu duy nhất trong , tức là một hàng duy nhất của ma trận thiết kếxRp+1X

nhập mô tả hình ảnh ở đây


Một kết luận mở

Nhìn vào các ô QQ bình thường cho cả xác suất và tỷ lệ cược log âm cho thấy cả hai đều không được phân phối bình thường. Điều này có thể giải thích sự khác biệt?

nhập mô tả hình ảnh ở đây

Nguồn:


1

Đối với hầu hết các mục đích, cách đơn giản nhất có lẽ là tốt nhất, như được thảo luận trong bối cảnh chuyển đổi nhật ký trên trang này . Hãy suy nghĩ về biến phụ thuộc của bạn khi được phân tích theo thang đo logit, với các kiểm tra thống kê được thực hiện và khoảng tin cậy (CI) được xác định trên thang đo logit đó. Việc chuyển đổi trở lại tỷ lệ cược chỉ đơn giản là đưa những kết quả đó vào một thang đo mà người đọc có thể dễ dàng nắm bắt hơn. Điều này cũng được thực hiện, ví dụ, trong phân tích tỷ lệ sống của Cox, trong đó các hệ số hồi quy (và 95% CI) được lũy thừa để có được tỷ lệ nguy hiểm và CI của chúng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.