Các phương pháp hồi quy kiểm duyệt có thể xử lý dữ liệu như thế này. Họ cho rằng phần dư hoạt động như trong hồi quy tuyến tính thông thường nhưng đã được sửa đổi để
(Kiểm duyệt bên trái): tất cả các giá trị nhỏ hơn ngưỡng thấp, độc lập với dữ liệu, (nhưng có thể thay đổi từ trường hợp này sang trường hợp khác) chưa được định lượng; và / hoặc
(Kiểm duyệt phải): tất cả các giá trị lớn hơn ngưỡng cao, độc lập với dữ liệu (nhưng có thể thay đổi từ trường hợp này sang trường hợp khác) chưa được định lượng.
"Không được định lượng" có nghĩa là chúng ta biết liệu giá trị có nằm dưới (hoặc cao hơn) ngưỡng của nó hay không, nhưng đó là tất cả.
Các phương pháp phù hợp thường sử dụng khả năng tối đa. Khi mô hình cho phản ứng tương ứng với vectơ có dạngXYX
Y∼ Xβ+ ε
với iid có một bản phân phối chung với PDF (trong đó là "tham số phiền toái" không xác định), sau đó - trong trường hợp không kiểm duyệt - khả năng ghi lại các quan sát làF σ f σ σ ( x i , y i )εFσfσσ( xtôi, ytôi)
Λ = ∑i = 1nđăng nhậpfσ( ytôi- xtôiβ) .
Với kiểm duyệt hiện tại, chúng tôi có thể chia các trường hợp thành ba lớp (có thể trống): đối với các chỉ mục đến , chứa các giá trị ngưỡng thấp hơn và biểu thị dữ liệu bị kiểm duyệt trái ; đối với các chỉ mục đến , được định lượng; và đối với các chỉ mục còn lại, chứa các giá trị ngưỡng trên và biểu thị dữ liệu bị kiểm duyệt phải . Khả năng nhật ký được lấy theo cùng một cách như trước đây: đó là nhật ký của sản phẩm của xác suất.n 1 y i i = n 1 + 1 n 2 y i y ii = 1n1ytôitôi = n1+ 1n2ytôiytôi
Λ = ∑i = 1n1đăng nhậpFσ( ytôi- xtôiβ) + Σtôi = n1+ 1n2đăng nhậpfσ( ytôi- xtôiβ) + Σtôi = n2+ 1nđăng nhập( 1 - Fσ( ytôi- xtôiβ) ) .
Điều này được tối đa hóa bằng số như là một hàm của .( β, σ)
Theo kinh nghiệm của tôi, các phương pháp như vậy có thể hoạt động tốt khi có ít hơn một nửa dữ liệu được kiểm duyệt; mặt khác, kết quả có thể không ổn định.
Dưới đây là một R
ví dụ đơn giản sử dụng censReg
gói để minh họa cách OLS và kết quả bị kiểm duyệt có thể khác nhau (rất nhiều) ngay cả với nhiều dữ liệu. Nó định tính lại dữ liệu trong câu hỏi.
library("censReg")
set.seed(17)
n.data <- 2960
coeff <- c(-0.001, 0.005)
sigma <- 0.005
x <- rnorm(n.data, 0.5)
y <- as.vector(coeff %*% rbind(rep(1, n.data), x) + rnorm(n.data, 0, sigma))
y.cen <- y
y.cen[y < 0] <- 0
y.cen[y > 0.01] <- 0.01
data = data.frame(list(x, y.cen))
Điều quan trọng cần chú ý là các tham số: độ dốc thực là , độ chặn thực sự là và SD lỗi thực sự là .- 0,001 0,0050,005- 0,0010,005
Hãy sử dụng cả hai lm
và censReg
để phù hợp với một dòng:
fit <- censReg(y.cen ~ x, data=data, left=0.0, right=0.01)
summary(fit)
Kết quả của hồi quy kiểm duyệt này, được đưa ra bởi print(fit)
, là
(Intercept) x sigma
-0.001028 0.004935 0.004856
Các giá trị này gần đáng kể với các giá trị chính xác lần lượt là , và .0,005 0,005- 0,0010,0050,005
fit.OLS <- lm(y.cen ~ x, data=data)
summary(fit.OLS)
Sự phù hợp OLS, được đưa ra bởi print(fit.OLS)
, là
(Intercept) x
0.001996 0.002345
Thậm chí không gần từ xa! Lỗi tiêu chuẩn ước tính được báo cáo summary
là , ít hơn một nửa giá trị thực. Những kiểu sai lệch này là điển hình của hồi quy với nhiều dữ liệu bị kiểm duyệt.0,002864
Để so sánh, hãy giới hạn hồi quy cho dữ liệu được định lượng:
fit.part <- lm(y[0 <= y & y <= 0.01] ~ x[0 <= y & y <= 0.01])
summary(fit.part)
(Intercept) x[0 <= y & y <= 0.01]
0.003240 0.001461
Tệ hơn nữa!
Một vài hình ảnh tóm tắt tình hình.
lineplot <- function() {
abline(coef(fit)[1:2], col="Red", lwd=2)
abline(coef(fit.OLS), col="Blue", lty=2, lwd=2)
abline(coef(fit.part), col=rgb(.2, .6, .2), lty=3, lwd=2)
}
par(mfrow=c(1,4))
plot(x,y, pch=19, cex=0.5, col="Gray", main="Hypothetical Data")
lineplot()
plot(x,y.cen, pch=19, cex=0.5, col="Gray", main="Censored Data")
lineplot()
hist(y.cen, breaks=50, main="Censored Data")
hist(y[0 <= y & y <= 0.01], breaks=50, main="Quantified Data")
Sự khác biệt giữa các lô "dữ liệu giả định" và "dữ liệu bị kiểm duyệt" là tất cả các giá trị y dưới hoặc trên trước đây đã được chuyển đến ngưỡng tương ứng của chúng để tạo ra âm mưu sau. Kết quả là, bạn có thể thấy tất cả các dữ liệu bị kiểm duyệt xếp dọc theo phía dưới và trên cùng.0,0100,01
Các đường liền màu đỏ là các đường vừa phải được kiểm duyệt, các đường màu xanh nét đứt của OLS phù hợp, cả hai chỉ dựa trên dữ liệu bị kiểm duyệt . Các đường màu lục nét đứt chỉ phù hợp với dữ liệu được định lượng. Rõ ràng là tốt nhất: các đường màu xanh lam và xanh lá cây là đáng chú ý và chỉ có màu đỏ (cho phù hợp với hồi quy kiểm duyệt) trông đúng. Các biểu đồ bên phải xác nhận rằng các giá trị của bộ dữ liệu tổng hợp này thực sự giống như chất lượng của câu hỏi (mean = , SD = ). Biểu đồ ngoài cùng bên phải cho thấy phần trung tâm (định lượng) của biểu đồ một cách chi tiết.0,0032 0,0037Y0,00320,0037