Có lấy mẫu xuống thay đổi hệ số hồi quy logistic không?


34

Nếu tôi có một tập dữ liệu với lớp dương rất hiếm và tôi lấy mẫu lớp âm, sau đó thực hiện hồi quy logistic, tôi có cần điều chỉnh các hệ số hồi quy để phản ánh thực tế rằng tôi đã thay đổi mức độ phổ biến của lớp dương không?

Ví dụ: giả sử tôi có bộ dữ liệu với 4 biến: Y, A, B và C. Y, A và B là nhị phân, C là liên tục. Đối với 11.100 quan sát Y = 0 và cho 900 Y = 1:

set.seed(42)
n <- 12000
r <- 1/12
A <- sample(0:1, n, replace=TRUE)
B <- sample(0:1, n, replace=TRUE)
C <- rnorm(n)
Y <- ifelse(10 * A + 0.5 * B + 5 * C + rnorm(n)/10 > -5, 0, 1)

Tôi phù hợp với hồi quy logistic để dự đoán Y, cho A, B và C.

dat1 <- data.frame(Y, A, B, C)
mod1 <- glm(Y~., dat1, family=binomial)

Tuy nhiên, để tiết kiệm thời gian, tôi có thể loại bỏ 10.200 quan sát không phải Y, cho 900 Y = 0 và 900 Y = 1:

require('caret')
dat2 <- downSample(data.frame(A, B, C), factor(Y), list=FALSE)
mod2 <- glm(Class~., dat2, family=binomial)

Các hệ số hồi quy từ 2 mô hình trông rất giống nhau:

> coef(summary(mod1))
              Estimate Std. Error   z value     Pr(>|z|)
(Intercept) -127.67782  20.619858 -6.191983 5.941186e-10
A           -257.20668  41.650386 -6.175373 6.600728e-10
B            -13.20966   2.231606 -5.919353 3.232109e-09
C           -127.73597  20.630541 -6.191596 5.955818e-10
> coef(summary(mod2))
              Estimate  Std. Error     z value    Pr(>|z|)
(Intercept) -167.90178   59.126511 -2.83970391 0.004515542
A           -246.59975 4059.733845 -0.06074284 0.951564016
B            -16.93093    5.861286 -2.88860377 0.003869563
C           -170.18735   59.516021 -2.85952165 0.004242805

Điều đó khiến tôi tin rằng việc lấy mẫu xuống không ảnh hưởng đến các hệ số. Tuy nhiên, đây là một ví dụ đơn lẻ, và tôi muốn biết chắc chắn.


8
Việc chặn sang một bên, bạn đang ước tính các tham số dân số giống nhau khi bạn xuống mẫu nhưng với độ chính xác thấp hơn - ngoại trừ việc chặn, bạn có thể ước tính khi bạn biết tỷ lệ dân số của phản ứng. Xem Hosmer & Lemeshow (2000), Hồi quy logistic ứng dụng , Ch 6.3 để biết bằng chứng. Đôi khi bạn có thể giới thiệu sự tách biệt, mặc dù không phổ biến, khi bạn lấy mẫu phản ứng đa số.
Scortchi - Phục hồi Monica

@Scortchi Đăng bình luận của bạn dưới dạng câu trả lời-- điều này có vẻ đủ cho câu hỏi của tôi. Cảm ơn đã tham khảo.
Zach

@Scortchi và Zach: Theo mô hình downsampled ( mod2), Pr(>|z|)cho Alà gần như 1. Chúng ta không thể bác bỏ giả thuyết rằng hệ số Alà 0 vì vậy chúng tôi đã mất một covariate được sử dụng trong mod1. Đây không phải là một sự khác biệt đáng kể?
Zhubarb

@Zhubarb: Như tôi đã lưu ý, bạn có thể đưa ra sự phân tách, làm cho các ước tính lỗi tiêu chuẩn Wald hoàn toàn không đáng tin cậy.
Scortchi - Tái lập Monica

Xem thêm Scott 2006
StasK

Câu trả lời:


29

Lấy mẫu xuống tương đương với các thiết kế điều khiển case case trong thống kê y tế. Bạn đang sửa chữa số lượng phản hồi và quan sát các mẫu đồng biến (dự đoán). Có lẽ tài liệu tham khảo chính là Prentice & Pyke (1979), "Mô hình tỷ lệ mắc bệnh logistic và nghiên cứu kiểm soát trường hợp bệnh", Biometrika , 66 , 3.

Họ đã sử dụng Định lý Bayes để viết lại mỗi thuật ngữ trong khả năng xác suất của một mẫu đồng biến đã cho có điều kiện là một trường hợp hoặc điều khiển là hai yếu tố; một đại diện cho một hồi quy logistic thông thường (xác suất là một trường hợp hoặc điều khiển có điều kiện trên một mẫu đồng biến), và cái kia đại diện cho xác suất cận biên của mẫu hiệp phương sai. Họ đã chỉ ra rằng tối đa hóa khả năng tổng thể chịu sự ràng buộc rằng xác suất cận biên của một trường hợp hoặc kiểm soát được cố định bởi sơ đồ lấy mẫu đưa ra các ước tính tỷ lệ chênh lệch tương tự như tối đa hóa yếu tố đầu tiên mà không bị ràng buộc (nghĩa là thực hiện hồi quy logistic thông thường) .

Có thể ước tính mức chặn cho dân số từ trường hợp chặn điều khiển của nếu biết tỷ lệ dân số :β 0 πβ0*β^0π

β^0*= =β^0-đăng nhập(1-ππn1n0)

trong đó & là số lượng điều khiển và trường hợp được lấy mẫu tương ứng.n 1n0n1

Tất nhiên, bằng cách vứt bỏ dữ liệu bạn đã gặp phải sự cố khi thu thập, mặc dù phần ít hữu ích nhất, bạn đang làm giảm độ chính xác của ước tính của bạn. Những hạn chế về tài nguyên tính toán là lý do chính đáng duy nhất tôi biết để thực hiện việc này, nhưng tôi đề cập đến nó bởi vì một số người dường như nghĩ rằng "một tập hợp dữ liệu cân bằng" rất quan trọng vì một số lý do khác mà tôi chưa bao giờ có thể xác định được.


Cảm ơn các câu trả lời chi tiết. Và vâng, lý do tôi thực hiện việc chạy mô hình đầy đủ này (không lấy mẫu xuống) bị cấm tính toán.
Zach

Gửi @Scortchi, cảm ơn bạn đã giải thích nhưng trong trường hợp tôi muốn sử dụng hồi quy logistic, bộ dữ liệu cân bằng dường như cần thiết bất kể tài nguyên tính toán. Tôi đã cố gắng sử dụng "logit giảm khả năng bị phạt thiên vị của Firth" nhưng không có kết quả. Vì vậy, dường như việc lấy mẫu xuống là sự thay thế duy nhất cho tôi, phải không?
Shahin

@Shahin Chà, (1) tại sao bạn không hài lòng với hồi quy logistic phù hợp với khả năng tối đa? & (2) chính xác thì điều gì đã sai khi sử dụng phương pháp của Firth?
Scortchi - Phục hồi Monica

@Scortchi, Vấn đề là mô hình rất tệ trong việc phát hiện các successtrường hợp. Nói cách khác, TPR rất thấp. Bằng cách thay đổi ngưỡng, TPR tăng nhưng độ chính xác rất tệ, điều đó có nghĩa là hơn 70% trường hợp được dán nhãn là dương, thực sự là tiêu cực. Tôi đọc rằng trong các sự kiện hiếm hoi, hồi quy logistic không hoạt động tốt, đây là lúc phương pháp của Firth được sử dụng hoặc ít nhất là một trong những vai trò mà nó có thể đảm nhận. Nhưng kết quả của phương pháp Firth đã xảy ra rất giống với logit thông thường. Tôi nghĩ rằng tôi có thể sai khi làm Firth, nhưng dường như mọi thứ đều ổn
Shahin

4
@Shahin: Bạn dường như đang sủa sai cây ở đó: lấy mẫu xuống sẽ không cải thiện sự phân biệt đối xử của mô hình của bạn. Hiệu chỉnh hoặc chính quy hóa có thể (trên dữ liệu mới - bạn có đang đánh giá hiệu suất của nó trên tập kiểm tra không?), Nhưng một đặc điểm kỹ thuật phức tạp hơn có thể giúp ích, hoặc đơn giản là bạn cần nhiều dự đoán thông tin hơn. Bạn có thể nên hỏi một câu hỏi mới, cung cấp chi tiết về dữ liệu, bối cảnh chủ đề, mô hình, chẩn đoán và mục tiêu của bạn.
Scortchi - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.