Phân phối tiệm cận của các mẫu bị kiểm duyệt từ


8

Đặt là thống kê thứ tự của một mẫu iid có kích thước từ . Giả sử dữ liệu được kiểm duyệt để chúng tôi chỉ nhìn thấy đầu phần trăm của dữ liệu, đó làĐặt , phân phối tiệm cận của \ left (X _ {(m)}, \ frac {\ sum_ {i = m + 1} ^ n X _ {(i)}} {(nm) } \đúng)? X(1),,X(n)nexp(λ)(1p)×100

X(pn),X(pn+1),,X(n).
m=pn
(X(m),i=m+1nX(i)(nm))?

Đây là phần nào liên quan đến này câu hỏi và này và cũng có thể nhẹ đến nay câu hỏi.

Bất kỳ trợ giúp sẽ được đánh giá cao. Tôi đã thử các cách tiếp cận khác nhau nhưng không thể tiến triển nhiều.


Người ta có thể chỉ ra rằng điều kiện trên X(m) , vectơ (X(m+1)X(m),,X(n)X(m)|X(m)) được phân phối dưới dạng thống kê đơn hàng của {Yi}1nm iid mẫu từ exp(1) (với m như được xác định trong câu hỏi tức là m=pn ), do đó 1mni=m+1nX(i)X(m)|X(m)=1mni=1nmY(i) vì vậy ở giới hạn n , chúng tôi phục hồi CLT do tính độc lập của Yi , đây có vẻ là bài hát phù hợp, nhưng Tôi không thể đẩy đối số này thêm nữa và tìm thấy tiệm cận cho (X(m),1mni=m+1nX(i)) .. .
chúng

2
Đến OP: Tại sao bạn coi mẫu của mình là bị kiểm duyệt? Thuật ngữ được kiểm duyệt sẽ chỉ ra rằng các giá trị bên dưới điểm kiểm duyệt được ghi là 0 hoặc được ghi lại tại điểm kiểm duyệt, v.v. Nhưng đó không phải là điều bạn đang làm ... bạn đang loại bỏ chúng, không kiểm duyệt ... đó là giống như cắt ngắn chúng. Và vì bạn đang xem xét phân phối tiệm cận, và lấy n là lớn, tại sao bạn quan tâm đến việc đặt hàng mẫu đầu tiên và cắt ngắn mẫu đã đặt hàng ??? Tại sao không chỉ đơn giản là xem xét phân phối theo cấp số nhân bị cắt cụt, bị cắt dưới đây với p% và sau đó tính tổng các điều khoản đó?
sói 31/8/2016

@wolfies, tôi đã sửa tất cả các lỗi chính tả mà bạn đã chỉ ra. Tôi sẽ xem xét phân phối cắt ngắn . Về kiểm duyệt, tôi đã xóa ghi chú. Tuy nhiên, một số nguồn mà tôi đã xem xét đề cập đến vấn đề tương tự như loại II kiểm duyệt đầu trang 6 ở đây
chúng vào

1
@them đó là thuật ngữ không chuẩn theo như tôi biết. Bạn nên sử dụng một mô hình cắt ngắn ở đây.
Shadowtalker

Câu trả lời:


2

Vì chỉ là một yếu tố tỷ lệ, nên không mất tính tổng quát, chọn các đơn vị đo lường tạo ra , làm cho hàm phân phối cơ bản với mật độ .λ = 1 F ( x ) = 1 - exp ( - x ) f ( x ) = exp ( - x )λλ=1F(x)=1exp(x)f(x)=exp(x)

Từ các cân nhắc song song với các định lý giới hạn trung tâm cho các trung vị mẫu , là không bình thường với trung bình và phương sai F - 1 ( p ) = - log ( 1 - p )X(m)F1(p)=log(1p)

Var(X(m))=p(1p)nf(log(1p))2=pn(1p).

Do sở hữu không nhớ của phân phối mũ , các biến hành động như số liệu thống kê thứ tự của một mẫu ngẫu nhiên rút ra từ , mà đã được thêm vào. Viếtn - m F X ( m )(X(m+1),,X(n))nmFX(m)

Y=1nmi=m+1nX(i)

đối với giá trị trung bình của chúng, ngay lập tức giá trị trung bình của là giá trị trung bình của (bằng ) và phương sai của là với phương sai của (cũng bằng ). Định lý giới hạn trung tâm ngụ ý chuẩn hóa là chuẩn Bình thường không có triệu chứng. Hơn nữa, vì là có điều kiện độc lập của , chúng tôi đồng thời có phiên bản tiêu chuẩn của trở thành tiệm cận tiêu chuẩn bình thường và không tương quan với . Đó là,Y1 Y 1 / ( n - m ) F 1 Y Y X ( m ) X ( m ) YF1Y1/(nm)F1YYX(m)X(m)Y

(1)(X(m)+log(1p)p/(n(1p)),YX(m)1nm)

tiệm cận có phân phối chuẩn bivariate.


Báo cáo đồ họa về dữ liệu mô phỏng cho các mẫu ( lần lặp) và . Dấu vết của sự sai lệch tích cực vẫn còn, nhưng cách tiếp cận với tính quy tắc hai biến thể hiện rõ trong việc thiếu mối quan hệ giữa và và sự gần gũi của biểu đồ với mật độ Chuẩn thông thường (thể hiện trong chấm đỏ). 500 p = 0,95 Y - X ( mn=1000500p=0.95 X ( m )YX(m)X(m)Nhân vật

Ma trận hiệp phương sai của các giá trị được tiêu chuẩn hóa (như trong công thức ) cho mô phỏng này là gần với ma trận đơn vị mà nó xấp xỉ.( 0,967 -(1)

(0.9670.0210.0211.010),

Các Rmã mà tạo ra những hình ảnh được dễ dàng sửa đổi để nghiên cứu các giá trị khác của , , và kích thước mô phỏng.pnp

n <- 1e3
p <- 0.95
n.sim <- 5e3
#
# Perform the simulation.
# X_m will be in the first column and Y in the second.
#
set.seed(17)
m <- floor(p * n)
X <- apply(matrix(rexp(n.sim * n), nrow = n), 2, sort)
X <- cbind(X[m, ], colMeans(X[(m+1):n, , drop=FALSE]))
#
# Display the results.
#
par(mfrow=c(2,2))

plot(X[,1], X[,2], pch=16, col="#00000020", 
     xlab=expression(X[(m)]), ylab="Y",
     main="Y vs X", sub=paste("n =", n, "and p =", signif(p, 2)))

plot(X[,1], X[,2]-X[,1], pch=16, col="#00000020", 
     xlab=expression(X[(m)]), ylab=expression(Y - X[(m)]),
     main="Y-X vs X", sub="Loess smooth shown")
lines(lowess(X[,2]-X[,1] ~ X[,1]), col="Red", lwd=3, lty=1)

x <- (X[,1] + log(1-p))  / sqrt(p/(n*(1-p)))
hist(x, main="Standardized X", freq=FALSE, xlab="Value")
curve(dnorm(x), add=TRUE, col="Red", lty=3, lwd=2)

y <- (X[,2] - X[,1] - 1) * sqrt(n-m)
hist(y, main="Standardized Y-X", freq=FALSE, xlab="Value")
curve(dnorm(x), add=TRUE, col="Red", lty=3, lwd=2)
par(mfrow=c(1,1))

round(var(cbind(x,y)), 3) # Should be close to the unit matrix
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.