Xác định xem một quá trình phân phối đuôi nặng đã được cải thiện đáng kể


12

Tôi quan sát thời gian xử lý của một quy trình trước và sau khi thay đổi để tìm hiểu, nếu quy trình được cải thiện nhờ thay đổi. Quá trình đã được cải thiện, nếu thời gian xử lý giảm. Phân phối thời gian xử lý là chất béo, do đó, so sánh trung bình là không hợp lý. Thay vào đó, tôi muốn biết liệu xác suất để quan sát thời gian xử lý thấp hơn sau khi thay đổi có đáng kể trên 50% hay không.

Đặt là biến ngẫu nhiên cho thời gian xử lý sau khi thay đổi và là biến trước đó. Nếu đáng kể trên thì tôi nói quá trình đã được cải thiện.Y P ( X < Y ) 0,5XYP(X<Y)0.5

Bây giờ tôi có quan sát của và quan sát của . Các quan sát xác suất là .x i X m y j YnxiXmyjYp = 1P(X<Y)p^=1nmij1xi<yj

Tôi có thể nói gì về khi đưa ra các quan sát và ?x i y jP(X<Y)xiyj

Câu trả lời:


12

Ước tính của bạn bằng với thống kê Mann-Whitney chia cho (cảm ơn, Glen!), Và do đó tương đương với thống kê tổng xếp hạng Wilcoxon (còn được gọi là thống kê Wilcoxon-Mann-Whitney) : , trong đó là cỡ mẫu của (giả sử không có ràng buộc.) Do đó, bạn có thể sử dụng các bảng / phần mềm của bài kiểm tra Wilcoxon và chuyển chúng trở lại để có được khoảng tin cậy hoặc giá trị .p^BạnmnWW= =Bạn+n(n+1)2nyBạnp

Gọi là cỡ mẫu của , = . Sau đó, không có triệu chứng,mxNm+n

W=Wm(N+1)2mn(N+1)12N(0,1)

Nguồn: Hollander và Wolfe , Phương pháp thống kê phi trắc nghiệm, đại khái p. 117, nhưng có lẽ hầu hết các sách thống kê phi kim loại sẽ đưa bạn đến đó.


@Glen_b - cảm ơn, tôi đã cập nhật câu trả lời. Rất hào phóng đoán bạn đã làm ở đó về nguyên nhân của sai lầm!
jbowman

13

@jbowman cung cấp một giải pháp tiêu chuẩn (tốt đẹp) cho vấn đề ước tính được gọi là mô hình cường độ ứng suất .θ=P(X<Y)

Một phương pháp thay thế không tham số khác đã được đề xuất trong Baklizi và Eidous (2006) cho trường hợp Y độc lập. Điều này được mô tả dưới đây.XY

Theo định nghĩa, chúng ta có điều đó

θ=P(X<Y)=FX(y)fY(y)dy,

nơi là CDF của Xf Y là mật độ của Y . Sau đó, sử dụng các mẫu của XY , chúng tôi có thể có được ước lượng hạt nhân của F Xf Y và do và ước lượng của θFXXfYYXYFXfYθ

θ^=F^X(y)f^Y(y)dy.

Điều này được thực hiện trong mã R sau bằng cách sử dụng nhân Gaussian.

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r )
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

# Example when X and Y are Cauchy
datx = rcauchy(100,0,1)
daty =  rcauchy(100,0,1)

nonpest(datx,daty)

Để có được một khoảng tin cậy cho bạn có thể có được một bootstrap mẫu ước lượng này như sau.θ

# bootstrap
B=1000
p = rep(0,B)

for(j in 1:B){
dat1 =  sample(datx,length(datx),replace=T)
dat2 =  sample(daty,length(daty),replace=T)
p[j] = nonpest(dat1,dat2)
}

# histogram of the bootstrap sample
hist(p)

# A confidence interval (quantile type)
c(quantile(p,0.025),quantile(p,0.975))

Các loại khoảng thời gian bootstrap khác cũng có thể được xem xét.


2
Thú vị và một tài liệu tham khảo giấy tốt (+1). Tôi sẽ thêm nó vào tiết mục của mình!
Jbowman

0

XiYiP(XiYi<0)=pI{XiYi<0}i=1,2,..,nXXi<Yin p=P(XiYi<0)X/n


2
Cơ sở của việc ghép đôi, Michael là gì?
whuber

OP cho biết "Gọi X là biến ngẫu nhiên cho thời gian xử lý sau khi thay đổi và Y là biến trước" Vì vậy, Xi là sau can thiệp và Yi là trước.
Michael R. Chernick

m=nXiYj

1
Bạn đúng. Tôi đoán một số loại thử nghiệm hai mẫu như Wilcoxon theo đề xuất của jbowman ở trên sẽ phù hợp. Điều thú vị là mẫu Mann-Whitney og bài kiểm tra đếm số lượng Xis <the Yjs.
Michael R. Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.