Khoảng dự đoán cho tỷ lệ thành công trong tương lai trong cài đặt Binomial


9

Giả sử tôi phù hợp với hồi quy Binomial và có được ước tính điểm và ma trận phương sai hiệp phương sai của các hệ số hồi quy. Điều đó sẽ cho phép tôi để có được một CI cho tỷ lệ dự kiến thành công trong một thí nghiệm tương lai, , nhưng tôi cần một CI cho tỷ lệ quan sát được. Đã có một vài câu trả lời liên quan được đăng, bao gồm mô phỏng (giả sử tôi không muốn làm điều đó) và một liên kết đến Krishnamoorthya et al (không hoàn toàn trả lời câu hỏi của tôi).p

Lý do của tôi là như sau: nếu chúng ta chỉ sử dụng mô hình Binomial, chúng ta buộc phải giả sử rằng được lấy mẫu từ phân phối chuẩn (với Wald CI tương ứng) và do đó không thể lấy CI cho tỷ lệ quan sát được ở dạng đóng. Nếu chúng ta giả sử rằng được lấy mẫu từ phân phối beta, thì mọi thứ sẽ dễ dàng hơn nhiều vì số lượng thành công sẽ tuân theo phân phối Beta-Binomial. Chúng tôi sẽ phải giả định rằng không có sự không chắc chắn trong các tham số beta ước tính, và .p alpha betappαβ

Có ba câu hỏi:

1) Một lý thuyết: có thể sử dụng chỉ các ước tính điểm của các tham số beta không? Tôi biết rằng để xây dựng một CI cho quan sát trong tương lai trong hồi quy tuyến tính đa

Y=xβ+ϵ,ϵN(0,σ2)

họ thực hiện phương sai lỗi wrt, . Tôi lấy nó (sửa cho tôi nếu tôi sai) rằng lời biện minh là trong thực tế được ước tính với độ chính xác cao hơn nhiều so với các hệ số hồi quy và chúng tôi sẽ không đạt được nhiều bằng cách kết hợp tính không chắc chắn của . Là một biện minh tương tự có thể áp dụng cho các tham số beta ước tính, và ?σ 2 σ 2 alpha betaσ2σ2σ2αβ

2) Gói nào tốt hơn (R: gamlss-bb, betareg, aod?; Tôi cũng có quyền truy cập vào SAS).

3) Với các tham số beta ước tính, có một phím tắt (gần đúng) để có được các lượng tử (2,5%, 97,5%) cho số lần thành công trong tương lai hay tốt hơn là tỷ lệ thành công trong tương lai theo phân phối Beta-Binomial.


Ở câu hỏi thứ nhất, vâng, đây là một điều hợp lệ mà mọi người làm, nó được gọi là Empirical Bayes: en.wikipedia.org/wiki/Empirical_Bayes_method
Paul

1
Tôi không nghĩ rằng việc sử dụng phương pháp XYZ để ước tính tham số mô hình có thể tự động ngụ ý rằng bạn có thể bỏ qua sự không chắc chắn về ước tính khi tạo CI cho một quan sát trong tương lai. Ví dụ, trong hồi quy tuyến tính, họ sử dụng OLS thay vì EB và sự không chắc chắn trong cũng bị bỏ qua. Tại sao vậy? Ngoài ra, bài viết Wiki đó không bao giờ gợi ý rằng trong EB độ chính xác của việc ước tính các siêu đường kính cấp cao nhất thường cao hơn nhiều đến mức có thể xem xét chúng cố định cho các mục đích thực tế. σ
James

1
“Khi sự phân bố đúng được mạnh lên đến đỉnh điểm, tích phân xác định có thể không có nhiều thay đổi bằng cách thay thế các phân bố xác suất trên với một ước lượng điểm đại diện đỉnh điểm phân phối. Điều đó có đúng trong trường hợp của bạn hay không phụ thuộc vào chi tiết cụ thể của miền vấn đề của bạn. p ( q | y ) η η *p(ηy)p(θy)ηη
Paul

2
Câu hỏi hay! Bạn không thể có được một trục, nhưng về khả năng sử dụng hồ sơ thì sao? Xem Những phương pháp phi Bayes nào có để suy luận tiên đoán? .
Scortchi - Phục hồi Monica

Câu trả lời:


1

Tôi sẽ giải quyết cả 3 phần cho câu hỏi.

Có hai vấn đề bị bó hẹp, đầu tiên là phương pháp bạn sử dụng để phù hợp với mô hình hồi quy trong trường hợp này. Thứ hai là làm thế nào để ước lượng các ước tính từ các ước tính của bạn để dự đoán một ước tính mới.

nếu các biến trả lời của bạn được phân phối nhị phân, bạn thường sử dụng hồi quy logistic hoặc hồi quy probit (glm với cdf bình thường làm hàm liên kết).

Nếu bạn thực hiện hồi quy logistic, hãy lấy phản hồi là tỷ lệ của số lượng quan sát được chia cho giới hạn trên đã biết tức là . Sau đó lấy dự đoán / hiệp phương sai của bạn và đưa chúng vào lệnh gọi R của bạn đến hàm glm. Đối tượng trả về có mọi thứ bạn cần để thực hiện phần còn lại của tính toán. yi/ni

x<- rnorm(100, sd=2)
prob_true <- 1/(1+exp(-(1+5*x)))
counts <- rbinom(100, 50,prob_true)
print(d.AD <- data.frame(counts,x))
glm.D93 <- glm(counts/50 ~ x, family = binomial() )

Đối với mô hình hồi quy tuyến tính , công thức cho khoảng dự đoán là:

y^i±tnpsy1+1n+(xix¯)2(n1)sx2

Bạn có thể sử dụng mô hình hồi quy tuyến tính như một xấp xỉ cho glm. Để làm điều này, bạn sẽ sử dụng công thức hồi quy tuyến tính cho sự kết hợp tuyến tính của các yếu tố dự đoán trước khi bạn thực hiện chuyển đổi liên kết nghịch để lấy lại xác suất theo tỷ lệ 0-1. Mã để làm điều này được đưa vào hàm dự đoán R.lm () R. Dưới đây là một số mã ví dụ cũng sẽ tạo ra một cốt truyện hay. ( EDIT : Mã này dành cho khoảng tin cậy, không dành cho khoảng dự đoán)

y_hat <- predict(glm.D93, type="link", se.fit=TRUE)
t_np<- qt(.975, 100-2, ncp=0)

ub <- y_hat$fit + t_np * y_hat$se.fit
lb <- y_hat$fit - t_np * y_hat$se.fit

point <- y_hat$fit

p_hat <- glm.D93$family$linkinv(point)
p_hat_lb <- glm.D93$family$linkinv(lb)
p_hat_ub <- glm.D93$family$linkinv(ub)

plot(x,p_hat)
points(x, p_hat_ub, col='red')
points(x, p_hat_lb, col='blue')

Bạn có thể làm điều tương tự cho bất kỳ glm nào, ví dụ Poisson, Gaussian nghịch đảo, gamma, v.v. Trong mỗi trường hợp, hãy thực hiện khoảng dự đoán trên thang đo kết hợp tuyến tính của các yếu tố dự đoán. Sau khi bạn nhận được hai điểm cuối của khoảng dự đoán, bạn chuyển đổi các điểm cuối này thông qua liên kết nghịch đảo. Đối với mỗi glms tôi đã đề cập, liên kết nghịch đảo có thể khác với trường hợp logit tôi đã viết ở đây. Hi vọng điêu nay co ich.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.