Phân phối dự đoán thường xuyên cho một biến Cauchy

Tôi đã không thể tìm thấy điều này trong tài liệu, nhưng điều đó có lẽ có nghĩa là tôi đang tìm sai chỗ. Tôi đang tìm kiếm để phân phối dự đoán thường xuyên, giả sử nó tồn tại, cho một biến thiên Cauchy một chiều và n chiều.

Vấn đề với phiên bản n chiều là không có gì giống như ma trận hiệp biến, thay vào đó, chỉ có một tham số tỷ lệ làm cho các lỗi siêu vòng tròn. Tôi có thể thấy điều này can thiệp vào sự tồn tại của một giá trị quan trọng.

BIÊN TẬP

Tôi đang tìm kiếm để dự đoán $x_{i+1}$ từ một tập hợp các quan sát $x_1\dots{x_i}$ rút ra từ một phân phối Cauchy với trung tâm $\mu$ và quy mô $\sigma,$ hoặc để dự đoán $y_{i+1}$ từ một số phương trình $y=mx+b,$ Ở đâu $x$ được rút ra từ một phân phối Cauchy như trên. Nó có thể là một vectơ hoặc đa chiều, nhưng tôi đang cố gắng xác định các thuộc tính tương đối của Bayes so với dự đoán thường xuyên. Dữ liệu của tôi được rút ra từ một Cauchy bị cắt ngắn hoặc một Cauchy tùy thuộc vào bộ nào.

Một khoảng dự đoán sẽ hoạt động vì tôi sẽ chỉ đặt khoảng đó là 100%.

prediction-interval frequentist cauchy

— Dave Harris
nguồn

Khi bạn nói biến đổi Cauchy , bạn có nghĩa là một hồi quy

X_{j, i}

$X_{j,i}$ trong phương trình hồi quy

Y_{i} = \sum_{j = 1}^{J} X_{j, i} β_{j} + ε_{i}

$Y_i = \sum_{j=1}^JX_{j,i}\beta_j + \varepsilon_i$ và bạn đang tìm kiếm khoảng tin cậy của ước tính OLS cho

β_{j}

$\beta_j$ ? Tôi không chắc chắn tôi hiểu câu hỏi.

— Jeremias K

Có những bài báo, như bài này từ năm 2008 , về ước tính với các bản phân phối đa biến. Cauchy đa biến là trường hợp đặc biệt của t đa biến. Như một bên, điều này cho phép một cấu trúc tương quan hoàn toàn linh hoạt. Điều đó có giúp gì cho bạn không, hay nó không phù hợp với câu hỏi của bạn?

— eric_kernfeld

Bạn đang cố gắng thực hiện thống kê này.stackexchange.com/questions/16349 cho phân phối đa biến với số không có nghĩa?

— Sextus Empiricus

@eric_kernfeld Tôi phải đọc nó một cách cẩn thận, nhưng đúng là như vậy, ngoại trừ việc tôi muốn biết cách tìm mật độ dự đoán của nó bằng các phương pháp Thường xuyên.

— Dave Harris

có vẻ như bạn đang cố gắng ước tính các tham số phân phối Cauchy từ

x_{i}

$x_i$ . Có đúng không?

— Aksakal

Câu trả lời:

Giải pháp chung cho vấn đề của bạn là Ước tính khả năng tối đa (MLE) của các tham số của bạn $\theta$ . Một khi chúng được lấy là $\hat{\theta}$ , bạn thay thế chúng vào pdf của bạn cho các tham số chưa biết, tức là bạn ước tính pdf của biến ngẫu nhiên là $\hat{f}(x_i) = f(x_i|\hat{\theta})$ . Điều này cho phép bạn xây dựng phân phối dự đoán của Biến ngẫu nhiên Cauchy của bạn.

Đối với trường hợp đơn biến , bài viết này là một tài nguyên tuyệt vời . Đối với Cauchy đơn phương với trung tâm $\mu$ và quy mô $\sigma$ , một có một hình thức đóng nếu bạn có $3-4$ quan sát. Nếu bạn có $n>4$ quan sát, MLE tồn tại $^{\ast}$ . Nếu bạn có $n$ Các quan sát, bạn sẽ phải giải hai phương trình dễ dàng xuất phát bằng cách đặt đạo hàm đầu tiên của khả năng log bằng 0, xem ở đây để biết dạng chính xác của chúng. (Trong ký hiệu của họ, $x_0 = \mu$ và $\sigma = \gamma$ .) Giải quyết vấn đề này bằng số có triển khai bằng ngôn ngữ R, xem tại đây .

Đối với trường hợp đa biến , tất cả những gì bạn cần lưu ý là phân phối Cauchy đa biến chỉ đơn giản là đa biến $t$ -Phân phối trong đó mức độ của tham số tự do được đặt thành $1$ , như đã được chỉ ra trong các ý kiến. Dành cho đa chủng tộc- $t$ , bạn có thể thực hiện suy luận MLE như được giải thích một cách xuất sắc trong câu trả lời này , dựa trên bài báo mà eric_kernfeld đã chỉ ra. Tôi không tìm thấy triển khai sẵn sàng cho thuật toán này, nhưng như bạn sẽ thấy khi bạn xem câu trả lời được cung cấp trong bài đăng, nó thực sự dễ dàng để tự thực hiện nó.

Sự khác biệt đối với dự đoán Bayes : Trong cài đặt Bayes, bạn sẽ đặt ưu tiên cho các tham số $\mu$ và $\sigma$ , mô hình hóa sự không chắc chắn của bạn về chúng như một biến ngẫu nhiên. Do đó, bạn sẽ nhận được các bản phân phối sau cho cả hai tham số, điều này cho thấy sự chắc chắn tương đối mà bạn có về chúng cho dữ liệu của bạn. Nếu bạn có hậu thế $q(\mu, \sigma|x_1,\dots,x_n)$ , sau đó bạn có được phân phối dự đoán của mình là $\int f(x|\mu, \sigma)q(\mu, \sigma|x_1,\dots,x_n)d\mu d\sigma$ , tích hợp ra sự không chắc chắn của bạn. Ngược lại, cài đặt MLE sẽ cung cấp cho bạn ước tính điểm $\mu$ và $\sigma$ bạn cắm vào mẫu chức năng pdf của bạn. Tương tự, bạn có thể nói rằng MLE dẫn đến một hậu thế với khối lượng điểm $1$ tại tuple $(\hat{\mu}, \hat{\sigma})$ và $0$ xác suất ở bất kỳ giá trị nào khác. Do đó, bạn bỏ qua tất cả sự không chắc chắn của tham số trong trường hợp này và bạn dựa vào thực tế rằng $\hat{\theta}$ tương đương với tiệm cận $\theta$ , điều đó có nghĩa là $\hat{f}(x) \to f(x)$ (thống nhất hơn $x$ ).

$^\ast$ Vâng, đó là trừ khi trường hợp kỳ lạ $n$ là chẵn và $n/2$ quan sát của bạn có giá trị $x_1$ trong khi nửa còn lại có giá trị $x_2$ , xảy ra với xác suất bằng 0 vì phân phối Cauchy liên tục.

— Jeremias K
nguồn

Giê-rê-mi. Bạn có nghĩ rằng có những khả năng để kết hợp sự không chắc chắn về

\hat{θ}

$\hat{\theta}$ vào khoảng dự đoán? Và làm thế nào để chúng tôi xây dựng một phân phối dự đoán từ pdf của một phân phối cauch đa chiều?

— Sextus Empiricus

Nếu bạn cho rằng

x_{i}

$x_i$ là các lần rút ngẫu nhiên từ một biến ngẫu nhiên Cauchy với các tham số chưa biết, việc cắm các tham số ước tính vào dạng chức năng trực tiếp cung cấp cho bạn phân phối dự đoán của các lần rút tiếp theo của

x_{i}

$x_i$ .

— Jeremias K

Đối với việc kết hợp độ không đảm bảo của tham số, nếu bạn muốn làm điều đó, bạn phải đi theo cách Bayes. Lưu ý rằng là một sản phẩm phụ, thông số sau của suy luận Bayes tập trung vào MLE thông qua định lý Bernstein Mises không có triệu chứng.

— Jeremias K

Người ta có thể sử dụng phương pháp Monte Carlo để có được ước tính thực nghiệm cho các mối quan hệ giữa $x_1....x_i$ và khoảng dự đoán cho $x_{i+n}$ .

Động lực: Nếu chúng tôi ước tính khoảng dự đoán dựa trên các phần tư / CDF của phân phối theo ước tính khả năng tối đa (hoặc loại ước tính tham số khác), thì chúng tôi đánh giá thấp kích thước của khoảng. Hiệu quả, trong thực tế, điểm $x_{i+n}$ sẽ rơi ra khỏi phạm vi thường xuyên hơn dự đoán.

Hình dưới đây thể hiện bằng cách chúng ta đánh giá thấp kích thước của khoảng đó, bằng cách biểu thị số lần đo mới hơn bao nhiêu lần $x_i$ nằm ngoài phạm vi dự đoán dựa trên ước tính tham số. (dựa trên các tính toán với 2000 lần lặp lại cho dự đoán)

Chẳng hạn, nếu chúng ta sử dụng khoảng dự đoán là 99% (do đó sẽ xảy ra lỗi 1%), thì chúng ta sẽ nhận được lỗi gấp 5 lần nếu kích thước mẫu là 3.

Các loại tính toán này có thể được sử dụng để tạo mối quan hệ theo kinh nghiệm về cách chúng ta có thể sửa phạm vi, cũng như các tính toán cho thấy rằng lớn $n$ sự khác biệt trở nên nhỏ hơn (và tại một số điểm người ta có thể coi nó không liên quan).

set.seed(1)

# likelihood calculation
like<-function(par, x){
  scale = abs(par[2])
  pos   = par[1]
  n <- length(x)
  like <- -n*log(scale*pi) - sum(log(1+((x-pos)/scale)^2))
  -like
}

# obtain effective predictive failure rate rate
tryf <- function(pos, scale, perc, n) {

  # random distribution
  draw <- rcauchy(n, pos, scale)

  # estimating distribution parameters based on median and interquartile range
  first_est <- c(median(draw), 0.5*IQR(draw))

  # estimating distribution parameters based on likelihood
  out <- optim(par=first_est, like, method='CG', x=draw)
  # making scale parameter positive (we used an absolute valuer in the optim function)
  out$par[2] <- abs(out$par[2])

  # calculate predictive interval
  ql <- qcauchy(perc/2, out$par[1], out$par[2])
  qh <- qcauchy(1-perc/2, out$par[1], out$par[2])

  # calculate effective percentage outside predicted predictive interval
  pl <- pcauchy(ql, pos, scale)
  ph <- pcauchy(qh, pos, scale)
  error <- pl+1-ph
  error
}

# obtain mean of predictive interval in 2000 runs
meanf <- function(pos,scale,perc,n) {
  trueval <- sapply(1:2000,FUN <- function(x) tryf(pos,scale,perc,n))
  mean(trueval)
}


#################### generate image

# x-axis chosen desired interval percentage
percentages <- 0.2/1.2^c(0:30)

# desired sample sizes n
ns <- c(3,4,5,6,7,8,9,10,20,30)

# computations
y <- matrix(rep(percentages, length(ns)), length(percentages))
for (i in which(ns>0)) {
  y[,i] <- sapply(percentages, FUN <- function(x) meanf(0,1,x,ns[i]))
}

# plotting
plot(NULL,
     xlim=c(0.0008,1), ylim=c(0,10),
     log="x",
     xlab="aimed error rate",
     ylab="effective error rate / aimed error rate",
     yaxt="n",xaxt="n",axes=FALSE)
axis(1,las=2,tck=-0.0,cex.axis=1,labels=rep("",2),at=c(0.0008,1),pos=0.0008)
axis(1,las=2,tck=-0.005,cex.axis=1,at=c(0.001*c(1:9),0.01*c(1:9),0.1*c(1:9)),labels=rep("",27),mgp=c(1.5,1,0),pos=0.0008)
axis(1,las=2,tck=-0.01,cex.axis=1,labels=c(0.001,0.01,0.1,1), at=c(0.001,0.01,0.1,1),mgp=c(1.5,1,0),pos=0.000)
#axis(2,las=1,tck=-0.0,cex.axis=1,labels=rep("",2),at=c(0.0008,1),pos=0.0008)
#axis(2,las=1,tck=-0.005,cex.axis=1,at=c(0.001*c(1:9),0.01*c(1:9),0.1*c(1:9)),labels=rep("",27),mgp=c(1.5,1,0),pos=0.0008)
#axis(2,las=1,tck=-0.01,cex.axis=1,labels=c(0.001,0.01,0.1,1), at=c(0.001,0.01,0.1,1),mgp=c(1.5,1,0),pos=0.0008)
axis(2,las=2,tck=-0.01,cex.axis=1,labels=0:15, at=0:15,mgp=c(1.5,1,0),pos=0.0008)


colours <- hsv(c(1:10)/20,1,1-c(1:10)/15)
for (i in which(ns>0)) {
  points(percentages,y[,i]/percentages,pch=21,cex=0.5,col=colours[i],bg=colours[i])
}

legend(x=0.4,y=4.5,pch=21,legend=ns,col=colours,pt.bg=colours,title="sample size")

title("difference between confidence interval and effective confidence interval")


plot(ns,y[31,]/percentages[31],log="")

— Sextus Empiricus
nguồn

Âm mưu cho chúng ta biết gì ngoài việc sử dụng một cỡ mẫu nhỏ sẽ mang lại ước tính xấu về các tham số của bạn khi sử dụng mle ? Tôi không thấy nó vô hiệu hóa như thế nào khi sử dụng mle, vì tỷ lệ lỗi trông tuyệt vời ngay cả đối với cỡ mẫu rất nhỏ là 30. Tôi cũng không chắc tôi hiểu phương án thay thế mà bạn đề xuất là gì, bạn có phiền mở rộng về các phương pháp tính toán không bạn đề cập ở đầu câu trả lời của bạn?

— Jeremias K

@JeremiasK Trong các ứng dụng thực tế, với kích thước mẫu nhỏ, người ta có thể sử dụng các tính toán này để làm các yếu tố hiệu chỉnh được xác định theo kinh nghiệm.

— Sextus Empiricus

Điều đó có ý nghĩa! Tôi không nghĩ bạn đề cập đến nó trong bài viết, có lẽ bạn nên chỉnh sửa nó để mọi người không phải đọc qua các bình luận

— Jeremias K

@MartijnWeterings cho đến nay bạn có ý nghĩa nhất. Trục

\frac{\sqrt{n} (\hat{μ} - μ)}{\hat{σ}}

$\frac{\sqrt{n}(\hat{\mu}-\mu)}{\hat{\sigma}}$ $ tuân theo tiêu chuẩn thông thường một khi kích thước mẫu đạt khoảng 100, nhưng tôi nhận ra rằng tôi vượt quá các kỹ năng của mình để giải phóng điều này bởi vì thay vì chọn một biến tôi đang chọn một hàm để giảm thiểu và tôi chưa làm điều đó trước đây.

— Dave Harris

@DaveHarris Tôi tin rằng phương pháp của tôi không khác lắm so với trường hợp của Jeremia, ngoại trừ việc tôi đưa ra một biểu thức (và chỉ bằng cách tiếp cận toán học thực nghiệm) cho phạm vi bị đánh giá thấp xảy ra do phân phối

f (x, {\hat{x}}_{0}, \hat{γ})

$f(x,\hat{x}_0,\hat{\gamma})$ là một phiên bản phân tán quá mức của

f (x, x_{0}, γ)

$f(x,x_0,\gamma)$ .

— Sextus Empiricus

Dường như tất cả những gì bạn cần là ước tính các tham số của phân phối Cauchy từ bộ dữ liệu $x_i$ . Đây là những gì Stephens đề xuất, đó không phải là MLE và tác giả khẳng định phương pháp này phù hợp và ổn định hơn MLE mặc dù bạn phải tính đến việc này đã được viết trong thế kỷ trước.

trong đó Cauchy được tham số hóa như sau:

Khi bạn có bản phân phối, dự báo điểm của bạn sẽ là $\hat\alpha$ . Lưu ý rằng vì không có thời điểm, bạn sẽ không thể chứng minh rằng dự báo của bạn là tối ưu theo nghĩa thông thường như giảm thiểu chi phí bình phương dự kiến.

— Aksakal
nguồn