Một mô hình Bayes mạnh mẽ để ước tính quy mô phân phối gần như bình thường là gì?


32

Có tồn tại một số ước tính mạnh mẽ của quy mô . Một ví dụ đáng chú ý là độ lệch tuyệt đối trung bình có liên quan đến độ lệch chuẩn là σ=MAD1.4826 . Trong khung Bayes tồn tại một số cách để ước tính mạnh mẽ vị trí của phân phối gần như bình thường (ví dụ: Bình thường bị ô nhiễm bởi các ngoại lệ), chẳng hạn, người ta có thể giả sử dữ liệu được phân phối dưới dạng phân phối hoặc phân phối Laplace. Bây giờ câu hỏi của tôi:

Điều gì sẽ là một mô hình Bayes để đo tỷ lệ phân phối gần như bình thường theo cách mạnh mẽ, mạnh mẽ theo nghĩa tương tự như MAD hoặc các công cụ ước tính mạnh tương tự?

Như trường hợp của MAD, sẽ rất gọn gàng nếu mô hình Bayes có thể tiếp cận SD của phân phối bình thường trong trường hợp khi phân phối dữ liệu thực sự được phân phối bình thường.

chỉnh sửa 1:

Một ví dụ điển hình của một mô hình mà là mạnh mẽ chống lại ô nhiễm / giá trị ngoại biên khi giả định các dữ liệu yikhoảng bình thường được sử dụng tại phân phối như sau:

yit(m,s,ν)

Trong đó m là giá trị trung bình, s là thang đo và ν là mức độ tự do. Với các linh mục phù hợp trên m,sν , m sẽ là ước tính về giá trị trung bình của yi sẽ mạnh mẽ chống lại các ngoại lệ. Tuy nhiên, s sẽ không phải là ước tính nhất quán về SD của yis phụ thuộc vào ν . Ví dụ, nếu ν sẽ được cố định 4.0 và các mô hình trên sẽ được trang bị cho một số lượng lớn các mẫu từ một phân phối sau đó s sẽ vào khoảng 0,82. Những gì tôi đang tìm kiếm là một mô hình mạnh mẽ, giống như mô hình t, nhưng đối với SD thay vì (hoặc ngoài) trung bình.Norm(μ=0,σ=1)s

chỉnh sửa 2:

Dưới đây là một ví dụ được mã hóa trong R và JAGS về cách mô hình t được đề cập ở trên mạnh mẽ hơn đối với giá trị trung bình.

# generating some contaminated data
y <- c( rnorm(100, mean=10, sd=10), 
        rnorm(10, mean=100, sd= 100))

#### A "standard" normal model ####
model_string <- "model{
  for(i in 1:length(y)) {
    y[i] ~ dnorm(mu, inv_sigma2)
  }

  mu ~ dnorm(0, 0.00001)
  inv_sigma2 ~ dgamma(0.0001, 0.0001)
  sigma <- 1 / sqrt(inv_sigma2)
}"

model <- jags.model(textConnection(model_string), list(y = y))
mcmc_samples <- coda.samples(model, "mu", n.iter=10000)
summary(mcmc_samples)

### The quantiles of the posterior of mu
##  2.5%   25%   50%   75% 97.5% 
##   9.8  14.3  16.8  19.2  24.1 

#### A (more) robust t-model ####
library(rjags)
model_string <- "model{
  for(i in 1:length(y)) {
    y[i] ~ dt(mu, inv_s2, nu)
  }

  mu ~ dnorm(0, 0.00001)
  inv_s2 ~ dgamma(0.0001,0.0001)
  s <- 1 / sqrt(inv_s2)
  nu ~ dexp(1/30) 
}"

model <- jags.model(textConnection(model_string), list(y = y))
mcmc_samples <- coda.samples(model, "mu", n.iter=1000)
summary(mcmc_samples)

### The quantiles of the posterior of mu
## 2.5%   25%   50%   75% 97.5% 
##8.03  9.35  9.99 10.71 12.14 

Có thể nó không đủ mạnh, nhưng phân phối chi bình phương là liên hợp thường được chọn trước cho nghịch đảo của phương sai.
Mike Dunlavey

Bạn có thể muốn xem câu trả lời đầu tiên cho câu hỏi này stats.stackexchange.com/questions/6493/ sẽ là đủ cho bạn; nó có thể không, nhưng có lẽ nó là như vậy.
jbowman

Bạn là gì trước mức độ ô nhiễm? Ô nhiễm sẽ được hệ thống? Ngẫu nhiên? Nó sẽ được tạo bởi một phân phối duy nhất, hoặc nhiều phân phối? Chúng ta có biết gì về phân phối tiếng ồn không? Nếu ít nhất một số điều ở trên được biết đến, thì chúng ta có thể phù hợp với một số loại mô hình hỗn hợp. Mặt khác, tôi không chắc niềm tin của bạn về vấn đề này thực sự là gì, và nếu bạn không có bất kỳ điều gì có vẻ như đây là một bối cảnh rất mơ hồ. Bạn cần sửa một cái gì đó, nếu không bạn có thể chọn ngẫu nhiên một điểm và khai báo nó là điểm duy nhất được tạo bởi Gaussian.
có nghĩa là

Nhưng nói chung, bạn có thể phù hợp với phân phối t có khả năng chống lại các ngoại lệ cao hơn hoặc hỗn hợp các phân phối t. Tôi chắc chắn có rất nhiều bài báo, đây là một bài của Giám mục nghiên cứu.microsoft.com/en-us/um/people/cmbishop/doads/
có nghĩa là có nghĩa là

1
Bạn là đúng đối với một dân số phân bố bình thường, nhưng không phải đối với hầu hết các bản phân phối khácσ=MAD1.4826
Henry

Câu trả lời:


10

Suy luận Bayes trong mô hình nhiễu T với mức ưu tiên thích hợp sẽ đưa ra ước tính mạnh mẽ về vị trí và tỷ lệ. Các điều kiện chính xác mà khả năng và nhu cầu cần đáp ứng trước được đưa ra trong mô hình hóa độ mạnh của Bayesian về các tham số vị trí và tỷ lệ của Andrade và O'Hagan (2011). Các ước tính rất mạnh theo nghĩa là một quan sát đơn lẻ không thể làm cho các ước tính lớn tùy ý, như được minh họa trong hình 2 của bài báo.

Khi dữ liệu được phân phối bình thường, SD của phân phối T được trang bị (đối với cố định ) không khớp với SD của phân phối tạo. Nhưng điều này là dễ dàng để sửa chữa. Hãy σ là độ lệch chuẩn của phân phối máy phát điện và để cho s là độ lệch chuẩn của phân phối T được trang bị. Nếu dữ liệu được chia tỷ lệ 2, thì từ dạng khả năng chúng ta biết rằng s phải chia tỷ lệ bằng 2. Điều này ngụ ý rằng s = σ f ( ν ) cho một số hàm cố định f . Hàm này có thể được tính bằng số bằng cách mô phỏng từ một tiêu chuẩn thông thường. Đây là mã để làm điều này:νσsss=σf(ν)f

library(stats)
library(stats4)
y = rnorm(100000, mean=0,sd=1)
nu = 4
nLL = function(s) -sum(stats::dt(y/s,nu,log=TRUE)-log(s))
fit = mle(nLL, start=list(s=1), method="Brent", lower=0.5, upper=2)
# the variance of a standard T is nu/(nu-2)
print(coef(fit)*sqrt(nu/(nu-2)))

Ví dụ: tại tôi nhận được f ( ν ) = 1,18 . Ước tính mong muốn là sau đó σ = s / f ( ν ) .ν=4f(ν)=1.18σ^=s/f(ν)


1
Câu trả lời hay (+1). 'theo nghĩa là một quan sát đơn lẻ không thể làm cho các ước tính lớn tùy ý', vì vậy điểm phân tích là 2 / n (tôi đã tự hỏi về điều này) .... Như một điểm so sánh, đối với quy trình được minh họa trong câu trả lời của tôi, đó là n / 2.
user603

Ồ cảm ơn nhé! Câu hỏi tiếp theo mờ. Sau đó, nó thực sự có ý nghĩa để "sửa" thang đo sao cho phù hợp với SD trong trường hợp Bình thường? Trường hợp sử dụng mà tôi nghĩ đến là khi báo cáo một biện pháp lây lan. Tôi sẽ không có vấn đề gì với quy mô báo cáo, nhưng thật tuyệt khi báo cáo điều gì đó phù hợp với SD vì đây là biện pháp phổ biến nhất (ít nhất là trong tâm lý học). Bạn có thấy một tình huống mà sự điều chỉnh này sẽ dẫn đến những ước tính kỳ lạ và không nhất quán không?
Rasmus Bååth

6

Khi bạn đang đặt câu hỏi về một vấn đề rất chính xác (ước lượng mạnh mẽ), tôi sẽ cung cấp cho bạn một câu trả lời chính xác không kém. Tuy nhiên, trước tiên, tôi sẽ bắt đầu cố gắng xua tan một giả định không chính đáng. Không phải là có một ước tính vị trí bayes mạnh mẽ (có ước tính vị trí bayesian nhưng như tôi minh họa bên dưới chúng không mạnh mẽ và rõ ràng , ngay cả công cụ ước tính mạnh nhất đơn giản nhất về vị trí không phải là bayesian). Theo tôi, lý do cho sự vắng mặt của sự chồng chéo giữa mô hình 'bayesian' và 'mạnh mẽ' trong trường hợp địa điểm đi một chặng đường dài để giải thích tại sao cũng không có ước tính nào về sự phân tán cả mạnh mẽ và bay bổng.

Với các linh mục phù hợp trên ν , m sẽ là ước tính về giá trị trung bình của y i sẽ mạnh mẽ chống lại các ngoại lệ.m,sνmyi

Thật ra, không. Các ước tính kết quả sẽ chỉ mạnh mẽ trong một ý nghĩa rất yếu của từ mạnh mẽ. Tuy nhiên, khi chúng ta nói rằng trung vị là mạnh mẽ để vượt trội hơn, chúng ta có nghĩa là từ mạnh vượt trội hơn, mẽ theo nghĩa mạnh hơn nhiều. Đó là, trong các số liệu thống kê mạnh mẽ, độ mạnh của trung vị đề cập đến tính chất mà nếu bạn tính toán trung vị trên một tập hợp dữ liệu của các quan sát được rút ra từ một mô hình đơn phương, liên tục và sau đó thay thế ít hơn một nửa các quan sát này bằng các giá trị tùy ý , giá trị trung bình được tính toán trên dữ liệu bị ô nhiễm gần với giá trị mà bạn đã có nếu bạn tính toán nó trên tập dữ liệu gốc (không bị nhiễm bẩn). Sau đó, thật dễ dàng để chỉ ra rằng chiến lược ước tính mà bạn đề xuất trong đoạn tôi trích dẫn ở trên chắc chắn là không mạnh mẽ theo nghĩa làm thế nào từ này thường được hiểu cho trung bình.

Tôi hoàn toàn không quen thuộc với phân tích Bayes. Tuy nhiên, tôi đã tự hỏi điều gì là sai với chiến lược sau đây vì nó có vẻ đơn giản, hiệu quả và chưa được xem xét trong các câu trả lời khác. Ưu tiên là phần tốt của dữ liệu được rút ra từ phân phối đối xứng và tỷ lệ ô nhiễm nhỏ hơn một nửa. Sau đó, một chiến lược đơn giản sẽ là:F

  1. tính toán trung bình / mad của dữ liệu của bạn. Sau đó tính:
    zi=|ximed(x)|mad(x)
  2. loại trừ các quan sát mà (đây làzi>qα(z|xF)lượng tử α của phân bố z khi x F ). Số lượng này có sẵn cho nhiều sự lựa chọn của F và có thể được bootstraged cho những người khác.αzxFF
  3. Chạy một phân tích Bayes (thông thường, không mạnh mẽ) trên các quan sát không bị từ chối.

CHỈNH SỬA:

Cảm ơn OP đã cung cấp mã R tự chứa để tiến hành phân tích vấn đề Bayes fide bayesian.

đoạn mã dưới đây so sánh cách tiếp cận bayes được OP đề xuất với phương pháp thay thế từ tài liệu thống kê mạnh mẽ (ví dụ: phương pháp phù hợp được đề xuất bởi Gauss cho trường hợp dữ liệu có thể chứa tối đa ngoại lệ và phân phối phần tốt của dữ liệu là Gaussian).n/22

phần trung tâm của dữ liệu là :N(1000,1)

n<-100
set.seed(123)
y<-rnorm(n,1000,1)

Thêm một số lượng chất gây ô nhiễm:

y[1:30]<-y[1:30]/100-1000 
w<-rep(0,n)
w[1:30]<-1

chỉ số w lấy giá trị 1 cho các ngoại lệ. Tôi bắt đầu với cách tiếp cận được đề xuất bởi OP:

library("rjags")
model_string<-"model{
  for(i in 1:length(y)){
    y[i]~dt(mu,inv_s2,nu)
  }
  mu~dnorm(0,0.00001)
  inv_s2~dgamma(0.0001,0.0001)
  s<-1/sqrt(inv_s2)
  nu~dexp(1/30) 
}"

model<-jags.model(textConnection(model_string),list(y=y))
mcmc_samples<-coda.samples(model,"mu",n.iter=1000)
print(summary(mcmc_samples)$statistics[1:2])
summary(mcmc_samples)

Tôi có:

     Mean        SD 
384.2283  97.0445 

và:

2. Quantiles for each variable:

 2.5%   25%   50%   75% 97.5% 
184.6 324.3 384.7 448.4 577.7 

(yên lặng như vậy từ các giá trị mục tiêu)

Đối với phương pháp mạnh mẽ,

z<-abs(y-median(y))/mad(y)
th<-max(abs(rnorm(length(y))))
print(c(mean(y[which(z<=th)]),sd(y[which(z<=th)])))

một ngươi được:

 1000.149 0.8827613

(rất gần với các giá trị đích)

Kết quả thứ hai gần hơn với các giá trị thực. Nhưng nó trở nên tồi tệ nhất. Nếu chúng ta phân loại là vượt trội hơn những quan sát mà ước tính Đây chỉ là một ví dụ, nhưng thực tế khá đơn giản để chỉ ra rằng (và nó có thể được thực hiện chính thức, ví dụ, xem chương 2 của [1]) các tham số của một học sinhz vượt trội hơn lớn hơn th(hãy nhớ rằng trước đó là là Gaussian) thì phương pháp bayesian thấy rằng tất cả các quan sát đều là ngoại lệ (thủ tục mạnh mẽ, ngược lại, đánh dấu tất cả và chỉ những ngoại lệ như vậy). Điều này cũng ngụ ý rằng nếu bạn thực hiện phân tích bayesian thông thường (không mạnh mẽ) trên dữ liệu không được phân loại là ngoại lệ theo quy trình mạnh mẽ, bạn nên làm tốt (ví dụ: hoàn thành các mục tiêu được nêu trong câu hỏi của bạn).F
phân phối lắp cho dữ liệu bị ô nhiễm không thể phụ thuộc vào để lộ các ngoại lệ. t

  • [1] Ricardo A. Maronna, Douglas R. Martin, Victor J. Yohai (2006). Thống kê mạnh mẽ: Lý thuyết và phương pháp (Dòng Wiley trong Xác suất và Thống kê).
  • Huber, PJ (1981). Thống kê mạnh mẽ. New York: John Wiley và con trai.

1
Vâng, t thường được đề xuất như là một thay thế mạnh mẽ cho phân phối bình thường. Tôi không biết điều này có phải theo nghĩa yếu hay không. Xem ví dụ: Lange, KL, Little, RJ, & Taylor, JM (1989). Mô hình thống kê mạnh mẽ bằng cách sử dụng phân phối t. Tạp chí của Hiệp hội Thống kê Hoa Kỳ , 84 (408), 881-896. pdf
Rasmus Bååth

1
Đây là ý nghĩa yếu. Nếu bạn có mã R thực hiện quy trình bạn đề xuất, tôi sẽ vui lòng minh họa câu trả lời của tôi bằng một ví dụ. nếu không, bạn có thể nhận được nhiều lời giải thích hơn trong chương 2 của sách giáo khoa này .
user603

Quy trình tôi đề nghị về cơ bản được mô tả ở đây: indiana.edu/~kruschke/BEST bao gồm mã R. Tôi sẽ phải suy nghĩ về giải pháp của bạn! Tuy nhiên, dường như Bayesian không hiểu theo nghĩa là nó không mô hình hóa tất cả dữ liệu, chỉ là tập hợp con "sống sót" bước 2.
Rasmus Bååth


1
Bây giờ tôi đã làm như vậy!
Rasmus Bååth

1

Trong phân tích bayes sử dụng phân phối Gamma nghịch đảo làm ưu tiên cho độ chính xác (nghịch đảo của phương sai) là một lựa chọn phổ biến. Hoặc phân phối Wishart nghịch đảo cho các mô hình đa biến. Thêm một ưu tiên vào phương sai sẽ cải thiện sự mạnh mẽ chống lại các ngoại lệ.

Có một bài viết rất hay của Andrew Gelman: "Phân phối trước cho các tham số phương sai trong các mô hình phân cấp" nơi ông thảo luận về những lựa chọn tốt cho các linh mục về phương sai có thể.


4
Tôi xin lỗi nhưng tôi không thấy cách này trả lời câu hỏi. Tôi không yêu cầu một mạnh mẽ trước, mà là cho một mô hình mạnh mẽ .
Rasmus Bååth

0

μNσ2μtN bậc tự do.

σD , chúng ta có thể làm như sau:

D|μ,σN(μ,σ2)
and if D(d1,,dN) then
p(D|μ,σ2)=1(2πσ)Nexp(N2σ2((mμ2)+s2))
where the sufficient statistics m and s2 are
m=1Ni=1Ndis2=1Ni=1Ndi2m2
In addition, using Bayes' theorem, we have
p(μ,σ2|D)p(D|μ,σ2)p(μ,σ2)
A convenient prior for (μ,σ2) is the Normal-invese-gamma family, which covers a wide range of shapes and is conjugate to this likelihood. This means that the posterior distribution p(μ,σ2|D) still belongs to the normal-inverse-gamma family, and its marginal p(σ2|D) is an inverse gamma distribution parameterized as
σ2|DIG(α+N/2,2β+Ns2)α,β>0
From this distribution, we can take the mode, which will give us an estimator for σ2. This estimator will be more or less tolerant to small excursions from misspecifications on the model by varying α and/or β. The variance of this distribution will then provide some indication on the fault-tolerance of the estimate. Since the tails of the inverse gamma are semi-heavy, you get the kind of behaviour you would expect from the t distribution estimate for μ that you mention.

1
"A robust estimator for the location parameter μ of some dataset of size N is obtained when one assigns a Jeffreys prior to the variance σ2 of the normal distribution." Isn't this Normal model you describe a typical example of a non-robust model? That is, a single value that is off can have great influence on the parameters of the model. There is a big difference between the posterior over the mean being a t-distribution (as in your case) and the distribution for the data being a t-distribution (as is a common example of a robust Bayesian model for estimating the mean).
Rasmus Bååth

1
It all depends on what you mean by robust. What you are saying right now is that you would like robustness wrt data. What I was proposing was robustness wrt model mis-specification. They are both different types of robustness.
yannick

2
I would say that the examples I gave, MAD and using a t distribution as the distribution for the data are examples of robustness with respect to data.
Rasmus Bååth

I would say Rasmus is right and so would Gelman er al in BDA3, as would a basic understanding that th t distribution has fatter tails than the normal for the same location parameter
Brash Equilibrium

0

I have followed the discussion from the original question. Rasmus when you say robustness I am sure you mean in the data (outliers, not miss-specification of distributions). I will take the distribution of the data to be Laplace distribution instead of a t-distribution, then as in normal regression where we model the mean, here we will model the median (very robust) aka median regression (we all know). Let the model be:

Y=βX+ϵ, ϵ has laplace(0,σ2).

Of course our goal is to estimate model parameters. We expect our priors to be vague to have an objective model. The model at hand has a posterior of the form f(β,σ,Y,X). Giving β a normal prior with large variance makes such a prior vague and a chis-squared prior with small degrees of freedom to mimic a jeffrey's prior(vague prior) is given to to σ2. With a Gibbs sampler what happens? normal prior+laplace likehood=???? we do know. Also chi-square prior +laplace likelihood=??? we do not know the distribution. Fortunately for us there is a theorem in (Aslan,2010) that transforms a laplace likelihood to a scale mixture of normal distributions which then enable us to enjoy the conjugate properties of our priors. I think the whole process described is fully robust in terms of outliers. In a multivariate setting chi-square becomes a a wishart distribution, and we use multivariate laplace and normal distributions.


2
Your solution seems to be focused on robust estimation of the location(mean/median). My question was rather about estimation of scale with the property of consistency with respect to retrieving the SD when the data generating distribution actually is normal.
Rasmus Bååth

With a robust estimate of the location, the scale as function of the location immediately benefits from the robustness of the location. There is no other way of making the scale robust.
Chamberlain Foncha

Anyway I must say I am eagerly waiting to see how this problem will be tackled most especially with a normal distribution as you emphasized.
Chamberlain Foncha

0

Suppose that you have K groups and you want to model the distribution of their sample variances, perhaps in relation to some covariates x. That is, suppose that your data point for group k1K is Var(yk)[0,). The question here is, "What is a robust model for the likelihood of the sample variance?" One way to approach this is to model the transformed data ln[Var(yk)] as coming from a t distribution, which as you have already mentioned is a robust version of the normal distribution. If you don't feel like assuming that the transformed variance is approximately normal as n, then you could choose a probability distribution with positive real support that is known to have heavy tails compared to another distribution with the same location. For example, there is a recent answer to a question on Cross Validated about whether the lognormal or gamma distribution has heavier tails, and it turns out that the lognormal distribution does (thanks to @Glen_b for that contribution). In addition, you could explore the half-Cauchy family.

Similar reasoning applies if instead you are assigning a prior distribution over a scale parameter for a normal distribution. Tangentially, the lognormal and inverse-gamma distributions are not advisable if you want to form a boundary avoiding prior for the purposes of posterior mode approximation because they peak sharply if you parameterize them so that the mode is near zero. See BDA3 chapter 13 for discussion. So in addition to identifying a robust model in terms of tail thickness, keep in mind that kurtosis may matter to your inference, too.

I hope this helps you as much as your answer to one of my recent questions helped me.


1
My question was about the situation when you have one group and how to robustly estimate the scale of that group. In the case of outliers I don't believe the sample variance is considered robust.
Rasmus Bååth

If you have one group, and you are estimating its normal distribution, then your question applies to the form of the prior over its scale parameter. As my answer implies, you can use a t distribution over its log transformation or choose a fat tailed distribution with positive real support, being careful about other aspects of that distribution such as its kurtosis. Bottom line, if you wan a robust model for a scale parameter, use a t distribution over its log transform or some other fat tailed distribution.
Brash Equilibrium
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.