Cách mô hình phân phối hình lẻ này (gần như ngược J)


25

Biến phụ thuộc của tôi được hiển thị bên dưới không phù hợp với bất kỳ phân phối chứng khoán nào mà tôi biết. Hồi quy tuyến tính tạo ra các phần dư có phần không bình thường, lệch phải liên quan đến Y dự đoán theo một cách kỳ lạ (âm mưu thứ 2). Bất kỳ đề xuất cho các biến đổi hoặc các cách khác để có được kết quả hợp lệ nhất và độ chính xác dự đoán tốt nhất? Nếu có thể tôi muốn tránh phân loại vụng về, giả sử, 5 giá trị (ví dụ: 0, lo%, med%, hi%, 1).

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây


7
Bạn sẽ tốt hơn nếu nói với chúng tôi về những dữ liệu này và chúng đến từ đâu: một cái gì đó đã kẹp một phân phối tự nhiên vượt ra ngoài khoảng . Có thể bạn đã sử dụng một số phương pháp đo lường hoặc quy trình thống kê không phù hợp với dữ liệu của bạn. Cố gắng khắc phục một lỗi như vậy bằng các kỹ thuật phù hợp phân phối tinh vi, biểu thức lại phi tuyến, tạo thùng, v.v., sẽ chỉ gây ra lỗi, vì vậy sẽ rất tốt để khắc phục vấn đề hoàn toàn. [0,1]
whuber

2
@whuber - Một suy nghĩ tốt, nhưng biến được tạo ra thông qua một hệ thống quan hệ phức tạp không may được đặt trong đá. Tôi không được tự do tiết lộ bản chất của các biến liên quan ở đây.
rolando2

1
Được rồi, nó là giá trị một shot. Tôi nghĩ rằng thay vì chuyển đổi dữ liệu, bạn vẫn có thể muốn nhận ra cơ chế kẹp dưới dạng thủ tục ML để thực hiện hồi quy: điều này sẽ giống như xem chúng là dữ liệu được kiểm duyệt cả trái và phải .
whuber

Hãy thử phân phối beta với các tham số nhỏ hơn thống nhất, en.wikipedia.org/wiki/File:Beta_distribution_pdf.svg
Alecos Papadopoulos

2
Loại bồn tắm hoặc phân phối hình chữ u này là phổ biến trong độc giả tạp chí, nơi nhiều người sẽ đọc một vấn đề duy nhất của một ấn phẩm, ví dụ, trong văn phòng bác sĩ hoặc người khác là những người đăng ký nhìn thấy mọi vấn đề với một số độc giả ở giữa. Một số ý kiến ​​và phản hồi đã chỉ ra bản phân phối beta là một giải pháp khả thi. Tài liệu tôi quen thuộc với các điểm đến nhị thức beta là tùy chọn phù hợp hơn.
Mike Hunter

Câu trả lời:


47

Các phương pháp hồi quy kiểm duyệt có thể xử lý dữ liệu như thế này. Họ cho rằng phần hoạt động như trong hồi quy tuyến tính thông thường nhưng đã được sửa đổi để

  1. (Kiểm duyệt bên trái): tất cả các giá trị nhỏ hơn ngưỡng thấp, độc lập với dữ liệu, (nhưng có thể thay đổi từ trường hợp này sang trường hợp khác) chưa được định lượng; và / hoặc

  2. (Kiểm duyệt phải): tất cả các giá trị lớn hơn ngưỡng cao, độc lập với dữ liệu (nhưng có thể thay đổi từ trường hợp này sang trường hợp khác) chưa được định lượng.

"Không được định lượng" có nghĩa là chúng ta biết liệu giá trị có nằm dưới (hoặc cao hơn) ngưỡng của nó hay không, nhưng đó là tất cả.

Các phương pháp phù hợp thường sử dụng khả năng tối đa. Khi mô hình cho phản ứng tương ứng với vectơ có dạngXYX

YXβ+ε

với iid có một bản phân phối chung với PDF (trong đó là "tham số phiền toái" không xác định), sau đó - trong trường hợp không kiểm duyệt - khả năng ghi lại các quan sát làF σ f σ σ ( x i , y i )εFσfσσ(xi,yi)

Λ=i=1nlogfσ(yixiβ).

Với kiểm duyệt hiện tại, chúng tôi có thể chia các trường hợp thành ba lớp (có thể trống): đối với các chỉ mục đến , chứa các giá trị ngưỡng thấp hơn và biểu thị dữ liệu bị kiểm duyệt trái ; đối với các chỉ mục đến , được định lượng; và đối với các chỉ mục còn lại, chứa các giá trị ngưỡng trên và biểu thị dữ liệu bị kiểm duyệt phải . Khả năng nhật ký được lấy theo cùng một cách như trước đây: đó là nhật ký của sản phẩm của xác suất.n 1 y i i = n 1 + 1 n 2 y i y ii=1n1yii=n1+1n2yiyi

Λ=i=1n1logFσ(yixiβ)+i=n1+1n2logfσ(yixiβ)+i=n2+1nlog(1Fσ(yixiβ)).

Điều này được tối đa hóa bằng số như là một hàm của .(β,σ)

Theo kinh nghiệm của tôi, các phương pháp như vậy có thể hoạt động tốt khi có ít hơn một nửa dữ liệu được kiểm duyệt; mặt khác, kết quả có thể không ổn định.


Dưới đây là một Rví dụ đơn giản sử dụng censReggói để minh họa cách OLS và kết quả bị kiểm duyệt có thể khác nhau (rất nhiều) ngay cả với nhiều dữ liệu. Nó định tính lại dữ liệu trong câu hỏi.

library("censReg")
set.seed(17)
n.data <- 2960
coeff  <- c(-0.001, 0.005)
sigma  <- 0.005
x      <- rnorm(n.data, 0.5)
y      <- as.vector(coeff %*% rbind(rep(1, n.data), x) + rnorm(n.data, 0, sigma))
y.cen           <- y
y.cen[y < 0]    <- 0
y.cen[y > 0.01] <- 0.01
data = data.frame(list(x, y.cen))

Điều quan trọng cần chú ý là các tham số: độ dốc thực là , độ chặn thực sự là và SD lỗi thực sự là .- 0,001 0,0050.0050.0010.005

Hãy sử dụng cả hai lmcensRegđể phù hợp với một dòng:

fit <- censReg(y.cen ~ x, data=data, left=0.0, right=0.01)
summary(fit)

Kết quả của hồi quy kiểm duyệt này, được đưa ra bởi print(fit), là

(Intercept)           x       sigma 
  -0.001028    0.004935    0.004856 

Các giá trị này gần đáng kể với các giá trị chính xác lần lượt là , và .0,005 0,0050.0010.0050.005

fit.OLS <- lm(y.cen ~ x, data=data)
summary(fit.OLS)

Sự phù hợp OLS, được đưa ra bởi print(fit.OLS), là

(Intercept)            x  
   0.001996     0.002345  

Thậm chí không gần từ xa! Lỗi tiêu chuẩn ước tính được báo cáo summarylà , ít hơn một nửa giá trị thực. Những kiểu sai lệch này là điển hình của hồi quy với nhiều dữ liệu bị kiểm duyệt.0.002864

Để so sánh, hãy giới hạn hồi quy cho dữ liệu được định lượng:

fit.part <- lm(y[0 <= y & y <= 0.01] ~ x[0 <= y & y <= 0.01])
summary(fit.part)

(Intercept)  x[0 <= y & y <= 0.01]  
   0.003240               0.001461  

Tệ hơn nữa!

Một vài hình ảnh tóm tắt tình hình.

lineplot <- function() {
  abline(coef(fit)[1:2], col="Red", lwd=2)
  abline(coef(fit.OLS), col="Blue", lty=2, lwd=2)
  abline(coef(fit.part), col=rgb(.2, .6, .2), lty=3, lwd=2)
}
par(mfrow=c(1,4))
plot(x,y, pch=19, cex=0.5, col="Gray", main="Hypothetical Data")
lineplot()
plot(x,y.cen, pch=19, cex=0.5, col="Gray", main="Censored Data")
lineplot()
hist(y.cen, breaks=50, main="Censored Data")
hist(y[0 <= y & y <= 0.01], breaks=50, main="Quantified Data")

Lô đất

Sự khác biệt giữa các lô "dữ liệu giả định" và "dữ liệu bị kiểm duyệt" là tất cả các giá trị y dưới hoặc trên trước đây đã được chuyển đến ngưỡng tương ứng của chúng để tạo ra âm mưu sau. Kết quả là, bạn có thể thấy tất cả các dữ liệu bị kiểm duyệt xếp dọc theo phía dưới và trên cùng.0,0100.01

Các đường liền màu đỏ là các đường vừa phải được kiểm duyệt, các đường màu xanh nét đứt của OLS phù hợp, cả hai chỉ dựa trên dữ liệu bị kiểm duyệt . Các đường màu lục nét đứt chỉ phù hợp với dữ liệu được định lượng. Rõ ràng là tốt nhất: các đường màu xanh lam và xanh lá cây là đáng chú ý và chỉ có màu đỏ (cho phù hợp với hồi quy kiểm duyệt) trông đúng. Các biểu đồ bên phải xác nhận rằng các giá trị của bộ dữ liệu tổng hợp này thực sự giống như chất lượng của câu hỏi (mean = , SD = ). Biểu đồ ngoài cùng bên phải cho thấy phần trung tâm (định lượng) của biểu đồ một cách chi tiết.0,0032 0,0037Y0.00320.0037


câu trả lời tuyệt vời (+1). Nếu chúng ta loại bỏ trực quan hai spkies kiểm duyệt, đối với tôi, biến phụ thuộc có một cái gì đó gần với phân bố theo cấp số nhân, như thể dữ liệu cơ bản là độ dài của một quá trình. Đây có phải là một cái gì đó để lấy tài khoản?
user603

@ user603 Tôi thực sự mô phỏng các giá trị được định lượng bằng một phần của nhánh trên của Gaussian, thực ra là :-). Chúng ta phải quan tâm ở đây, bởi vì mô hình xác suất liên quan liên quan đến phần và không phải là chính biến trả lời. Mặc dù có một chút khó khăn, người ta có thể tạo ra các lô còn lại bị kiểm duyệt và thậm chí các lô xác suất bị kiểm duyệt để đánh giá mức độ phù hợp của một số phân phối giả định.
whuber

quan điểm của tôi là với một Gaussian bị kiểm duyệt gấp đôi, biểu đồ của các giá trị không bị kiểm duyệt của anh ta sẽ hơi bằng phẳng, nhưng chúng dường như đang giảm dần khi chúng ta di chuyển khỏi 0.
user603

1
@ user603 À, không, đó không phải là trường hợp: hãy xem biểu đồ của các giá trị được định lượng. Chúng sẽ xuất hiện dốc gần như tuyến tính xuống, chính xác như trong câu hỏi.
whuber

2
Tôi đã thử hồi quy kiểm duyệt trên tập dữ liệu của mình và kết quả được xác định giá trị tốt hơn so với kết quả của OLS. Một bổ sung tốt đẹp cho bộ công cụ của tôi - thx.
rolando2

9

Các giá trị luôn nằm trong khoảng từ 0 đến 1?

Nếu vậy bạn có thể xem xét phân phối beta và hồi quy beta.

Nhưng hãy chắc chắn để suy nghĩ thông qua quá trình dẫn đến dữ liệu của bạn. Bạn cũng có thể thực hiện mô hình thổi phồng 0 và 1 (mô hình thổi phồng 0 là phổ biến, có lẽ bạn sẽ cần phải mở rộng đến 1 lạm phát bởi chính mình). Sự khác biệt lớn là nếu các gai đó đại diện cho số lượng lớn chính xác 0 và 1 hoặc chỉ các giá trị gần bằng 0 và 1.

Có thể tốt nhất là tham khảo ý kiến ​​của một nhà thống kê địa phương (với một thỏa thuận không tiết lộ để bạn có thể thảo luận chi tiết về nơi dữ liệu đến từ đâu) để tìm ra cách tiếp cận tốt nhất.


2
01

Có, luôn trong phạm vi từ 0% đến 1% ... Và những đột biến này thực sự chính xác ở mức 0% và 1%. Các mô hình zero-or-and-one có thể áp dụng cho dữ liệu không đếm như thế này không?
rolando2

1
Không có lạm phát bình thường, nhưng điều đó không áp dụng ở đây.
Peter Flom - Tái lập Monica

Với chính xác 0 và 1 nhưng liên tục giữa có vẻ như có thể có phân phối liên tục cơ bản với các vau bên ngoài khu vực đó được làm tròn thành 0 hoặc 1. Đây sẽ là trường hợp bị kiểm duyệt gấp đôi và các mô hình có thể phù hợp khi sử dụng ý tưởng đó.
Greg Snow

4

Phù hợp với lời khuyên của Greg Snow Tôi đã nghe các mô hình beta cũng hữu ích trong các tình huống như vậy (xem Smithson & verkuilen, 2006, A Better Lemon Squeezer ), cũng như hồi quy lượng tử ( Bottai et al., 2010 ), nhưng những điều này có vẻ như các hiệu ứng sàn và trần rõ rệt đến mức chúng có thể không phù hợp (đặc biệt là hồi quy beta).

Một cách khác là xem xét các loại mô hình hồi quy bị kiểm duyệt, đặc biệt là Mô hình Tobit , trong đó chúng tôi xem xét các kết quả quan sát được tạo ra bởi một số biến tiềm ẩn tiềm ẩn là liên tục (và có lẽ là bình thường). Tôi sẽ không nói mô hình liên tục cơ bản này là hợp lý khi đưa ra biểu đồ của bạn, nhưng bạn có thể tìm thấy một số hỗ trợ cho nó khi bạn thấy phân phối (bỏ qua sàn) có mật độ cao hơn ở các giá trị thấp hơn của nhạc cụ và từ từ cong lên cao hơn các giá trị.

Mặc dù may mắn, sự kiểm duyệt đó rất ấn tượng, thật khó để tưởng tượng việc phục hồi nhiều thông tin hữu ích trong các nhóm cực đoan. Dường như với tôi, gần một nửa mẫu của bạn rơi vào các thùng sàn và trần nhà.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.