Lỗi xấp xỉ của khoảng tin cậy cho giá trị trung bình khi


15

Đặt {Xi}i=1n là một họ các biến ngẫu nhiên iid lấy các giá trị trong [0,1] , có giá trị trung bình μ và phương sai σ2 . Một khoảng tin cậy đơn giản cho giá trị trung bình, sử dụng σ bất cứ khi nào nó được biết đến, được cho bởi

P(|X¯μ|>ε)σ2nε21nε2(1).

Ngoài ra, vì X¯μσ/n được phân phối không có triệu chứng như một biến ngẫu nhiên tiêu chuẩn thông thường, phân phối chuẩn đôi khi được sử dụng để "xây dựng" một khoảng tin cậy gần đúng.


Trong các kỳ thi trắc nghiệm thống kê câu trả lời, tôi đã sử dụng xấp xỉ này thay vì (1) bất cứ khi nào n30 . Tôi luôn cảm thấy rất khó chịu với điều này (nhiều hơn bạn có thể tưởng tượng), vì lỗi gần đúng không được định lượng.


  • Tại sao sử dụng xấp xỉ bình thường chứ không phải (1) ?

  • Tôi không muốn, một lần nữa, áp dụng một cách mù quáng quy tắc n30 . Có tài liệu tham khảo tốt nào có thể hỗ trợ tôi từ chối làm như vậy và cung cấp giải pháp thay thế phù hợp không? ( (1) là một ví dụ về những gì tôi cho là một sự thay thế phù hợp.)

Ở đây, trong khi σE[|X|3] không rõ, chúng dễ dàng bị ràng buộc.

Xin lưu ý rằng câu hỏi của tôi là một yêu cầu tham khảo đặc biệt về khoảng tin cậy và do đó khác với các câu hỏi được đề xuất là trùng lặp một phần ở đâyđây . Nó không được trả lời ở đó.


2
Bạn có thể phải cải thiện xấp xỉ được tìm thấy trong các tài liệu tham khảo cổ điển và khai thác thực tế rằng nằm trong ( 0 , 1 ) mà bạn nhận thấy cung cấp thông tin về các khoảnh khắc. Công cụ ma thuật, tôi tin rằng, sẽ là định lý Berry của Esseen! Xi(0,1)
Yves

1
với các giới hạn đó, phương sai không thể lớn hơn 0,25, tốt hơn nhiều so với 1, phải không?
carlo

Câu trả lời:


3

Tại sao sử dụng xấp xỉ bình thường?

Thật đơn giản khi nói rằng luôn luôn tốt hơn để sử dụng nhiều thông tin hơn là ít hơn. Phương trình (1) sử dụng định lý Ch Quashev . Lưu ý, cách nó không sử dụng bất kỳ thông tin nào về hình dạng phân phối của bạn, tức là nó hoạt động cho bất kỳ phân phối nào có phương sai nhất định. Do đó, nếu bạn sử dụng một số thông tin về hình dạng phân phối của mình, bạn phải có được xấp xỉ tốt hơn. Nếu bạn biết rằng phân phối của bạn là Gaussian, thì bằng cách sử dụng kiến ​​thức này, bạn sẽ có được ước tính tốt hơn.

Vì, bạn đã áp dụng định lý giới hạn trung tâm, tại sao không sử dụng xấp xỉ Gaussian của giới hạn? Thực tế, chúng sẽ tốt hơn, chặt chẽ hơn (hoặc sắc nét hơn) bởi vì những ước tính này dựa trên kiến ​​thức về hình dạng là một phần thông tin bổ sung.

Quy tắc của ngón tay cái 30 là một huyền thoại, được hưởng lợi từ xu hướng xác nhận . Nó chỉ tiếp tục được sao chép từ cuốn sách này sang cuốn sách khác. Khi tôi tìm thấy một tài liệu tham khảo gợi ý quy tắc này trong một bài báo vào những năm 1950. Đó không phải là bằng chứng vững chắc, như tôi nhớ. Đó là một số loại nghiên cứu thực nghiệm. Về cơ bản, lý do duy nhất nó được sử dụng là vì nó là loại công việc. Bạn không thấy nó bị vi phạm thường xuyên.

CẬP NHẬT Tra cứu bài báo của Zachary R. Smith và Craig S. Wells " Định lý giới hạn trung tâm và cỡ mẫu ". Họ trình bày một nghiên cứu thực nghiệm về sự hội tụ đến CLT cho các loại phân phối khác nhau. Dĩ nhiên, ma thuật số 30 không hoạt động trong nhiều trường hợp.


+1 Cho một lời giải thích hợp lý. Nhưng không có rủi ro sử dụng thông tin không hoàn toàn đúng? CLT không nói gì về việc phân phối cho một n cố định . X¯n
Olivier

đúng, CLT không nói gì về việc phân phối mẫu hữu hạn, nhưng vì vậy không có bất kỳ phương trình tiệm cận nào. Tuy nhiên, không thể phủ nhận rằng họ có thông tin hữu ích, đó là lý do tại sao việc giới hạn các mối quan hệ được sử dụng ở mọi nơi. Vấn đề với Ch Quashev là nó rộng đến mức hiếm khi được sử dụng bên ngoài lớp học. Chẳng hạn, với một độ lệch chuẩn, xác suất mà nó đưa ra là - thông tin khó thực tế<1/k2=1
Aksakal

Tuy nhiên, đối với lấy các giá trị 0 hoặc 1 với xác suất bằng nhau, ứng dụng Ch Quashev của bạn rất sắc nét. ;) Vấn đề là Ch Quashev, được áp dụng cho một mẫu trung bình, sẽ không bao giờ giữ được độ sắc nét khi n phát triển. Xn
Olivier

Tôi không biết về bài viết của Smith và Wells, tôi đã thử sao chép nó trong R và không thể lấy lại kết luận của họ ...
Alex Nelson

9

Vấn đề với việc sử dụng bất đẳng thức Ch Quashev để có được một khoảng cho giá trị thực, là nó chỉ cung cấp cho bạn một giới hạn thấp hơn cho xác suất, hơn nữa đôi khi là tầm thường, hoặc, để không tầm thường, nó có thể cho một khoảng rất rộng khoảng tin cậy. Chúng ta có

P(|X¯μ|>ε)=1P(X¯εμX¯+ε)

P(X¯εμX¯+ε)11nε2

Chúng ta thấy rằng, cũng tùy thuộc vào kích thước mẫu, nếu chúng ta giảm "quá nhiều" chúng ta sẽ nhận được câu trả lời tầm thường "xác suất là lớn hơn không".ε

Bên cạnh đó, những gì chúng ta nhận được từ phương pháp này là một kết luận có dạng "" xác suất rơi vào [ ˉ X ± ε ]μ[X¯±ε]bằng hoặc lớn hơn ..."

Nhưng chúng ta hãy giả định rằng chúng tôi tốt với điều này, và biểu thị xác suất tối thiểu mà chúng tôi cảm thấy thoải mái. Vì vậy, chúng tôi muốnpmin

11nε2=pminε=1(1pmin)n

Với kích thước mẫu nhỏ và xác suất tối thiểu mong muốn cao, điều này có thể mang lại khoảng tin cậy rộng không thỏa đáng. Ví dụ: với n = 100, chúng ta sẽ nhận được ε .316 , ví dụ, đối với biến được xử lý bởi OP được giới hạn trong [ 0 , 1 ]pmin=0.9n=100ε.316[0,1] dường như quá lớn sẽ không hữu ích.

Nhưng cách tiếp cận là hợp lệ và không phân phối, và do đó, có thể có những trường hợp có thể hữu ích.

Người ta cũng có thể muốn kiểm tra sự bất bình đẳng của VysochanskijTHER Petunin được đề cập trong một câu trả lời khác, trong đó có các phân phối không chính thống liên tục và tinh chỉnh sự bất bình đẳng của Ch Quashev .


Tôi không đồng ý rằng một vấn đề với Ch Quachev rằng nó chỉ đưa ra giới hạn thấp hơn cho xác suất. Trong cài đặt không phân phối, giới hạn dưới là điều tốt nhất chúng ta có thể hy vọng. Các câu hỏi quan trọng là: Chitherchev có sắc nét không? Là chiều dài Chebychev CI của hệ thống đánh giá quá mức cho một mức độ cố định ? Tôi đã trả lời điều này trong bài viết của tôi, từ một quan điểm cụ thể. Tuy nhiên, tôi vẫn đang cố gắng để hiểu nếu Ch Quachev cho một mẫu có nghĩa là sẽ luôn luôn không sắc nét, theo nghĩa mạnh hơn. α
Olivier

Độ dài của CI không theo ước tính, vì không tồn tại một số độ dài chưa biết duy nhất, vì vậy tôi không chắc ý của bạn là gì khi sử dụng từ "ước tính quá mức" ở đây. Các phương pháp khác nhau cung cấp các CI khác nhau, sau đó tất nhiên chúng ta có thể cố gắng đánh giá và đánh giá chúng.
Alecos Papadopoulos

Ước tính quá mức là một lựa chọn từ ngữ tồi, cảm ơn vì đã chỉ ra nó. Bằng "chiều dài ước tính quá mức có hệ thống" tôi có nghĩa là phương pháp để có được một CI luôn mang lại một cái gì đó lớn hơn mức cần thiết.
Olivier

1
@Olivier Nói chung, bất đẳng thức Ch Quashev được biết đến là một bất đẳng thức lỏng lẻo, và được sử dụng nhiều hơn như một công cụ trong các dẫn xuất lý thuyết và bằng chứng hơn là trong công việc được áp dụng.
Alecos Papadopoulos

2
@Olivier "Nói chung" bao gồm trình độ chuyên môn của bạn, tôi sẽ nói.
Alecos Papadopoulos

7

Câu trả lời ngắn gọn là nó có thể đi khá tệ, nhưng chỉ khi một hoặc cả hai đuôi của phân phối lấy mẫu thực sự béo .

Mã R này tạo ra một triệu bộ gồm 30 biến phân phối gamma và lấy giá trị trung bình của chúng; nó có thể được sử dụng để hiểu được sự phân bố lấy mẫu của giá trị trung bình trông như thế nào. Nếu xấp xỉ bình thường hoạt động như dự định, kết quả sẽ xấp xỉ bình thường với trung bình 1 và phương sai 1/(30 * shape).

f = function(shape){replicate(1E6, mean(rgamma(30, shape, shape)))}

Khi shapelà 1.0, phân phối gamma trở thành phân phối theo cấp số nhân , điều này không bình thường. Tuy nhiên, các phần không phải là Gaussian hầu hết đều ở mức trung bình và do đó, xấp xỉ Gaussian không quá tệ:

histogram & density plot

Rõ ràng có một số sai lệch, và sẽ tốt hơn nếu tránh điều đó khi có thể. Nhưng thành thật mà nói, mức độ thiên vị đó có lẽ sẽ không phải là vấn đề lớn nhất đối với một nghiên cứu điển hình.

Điều đó nói rằng, mọi thứ có thể trở nên tồi tệ hơn nhiều. Với f(0.01), biểu đồ trông như thế này:

histogram

Chuyển đổi log 30 điểm dữ liệu được lấy mẫu trước khi lấy trung bình sẽ giúp ích rất nhiều:

histogram

Nói chung, các bản phân phối có đuôi dài (ở một hoặc cả hai mặt của bản phân phối) sẽ yêu cầu hầu hết các mẫu trước khi phép gần đúng Gaussian bắt đầu trở nên đáng tin cậy. Thậm chí có những trường hợp bệnh lý trong đó theo nghĩa đen sẽ không bao giờ có đủ dữ liệu để xấp xỉ Gaussian hoạt động, nhưng có lẽ bạn sẽ gặp vấn đề nghiêm trọng hơn trong trường hợp đó (vì phân phối lấy mẫu không có nghĩa hoặc phương sai được xác định rõ để bắt đầu với).


I find the experiment very pertinent and interesting. I won't take this as the answer, however, as it does not address the crux of the problem.
Olivier

1
what's the crux?
David J. Harris

Your answer does not provide rigorous footing for sound statistical practice. It only gives examples. Note, also, that the random variables I consider are bounded, greatly changing what is the worst possible case.
Olivier

@Glen_b: this answer isn't so relevant to your revised version of the question. Should I just leave it here, or would you recommend something else?
David J. Harris

3

Problem with the Chebyshev confidence interval

As mentioned by Carlo, we have σ214. This follows from Var(X)μ(1μ). Therefore a confidence interval for μ is given by

P(|X¯μ|ε)14nε2.
The problem is that the inequality is, in a certain sense, quite loose when n gets large. An improvement is given by Hoeffding's bound and shown below. However, we can also demonstrate how bad it can get using the Berry-Esseen theorem, pointed out by Yves. Let Xi have a variance 14, the worst possible case. The theorem implies that P(|X¯μ|ε2n)2SF(ε)+8n, where SF is the survival function of the standard normal distribution. In particular, with ε=16, we get SF(16)e58 (according to Scipy), so that essentially
P(|X¯μ|8n)8n+0,()
whereas the Chebyshev inequality implies
P(|X¯μ|8n)1256.
Note that I did not try to optimize the bound given in (), the result here is only of conceptual interest.

Comparing the lengths of the confidence intervals

Consider the (1α)-level confidence interval lengths Z(α,n) and C(α,n) obtained using the normal approximation (σ=12) and the Chebyshev inequality, repectively. It turns out that C(α,n) is a constant times bigger than Z(α,n), independently of n. Precisely, for all n,

C(α,n)=κ(α)Z(α,n),κ(α)=(ISF(α2)α)1,
where ISF is the inverse survival function of the standard normal distribution. I plot below the multiplicative constant.

enter image description here

In particular, the 95% level confidence interval obtained using the Chebyshev inequality is about 2.3 times bigger than the same level confidence interval obtained using the normal approximation.


Using Hoeffding's bound

Hoeffding's bound gives

P(|X¯μ|ε)2e2nε2.
Thus an (1α)-level confidence interval for μ is
(X¯ε,X¯+ε),ε=lnα22n,
of length H(α,n)=2ε. I plot below the lengths of the different confidence intervals (Chebyshev inequality: C; normal approximation (σ=1/2): Z; Hoeffding's inequality: H) for α=0.05.

enter image description here


Very interesting! I have though some corrections to suggest you toghether with a big puzzlement: first, you should take out absolute value from the Hoeffding's unequality definition, it's P(X¯με)e2nε2 or P(|X¯μ|ε)2e2nε2; the second correction is less important, α is generally taken to be 0.05 or lower, while 0.95 is addressed as 1α, it's a bit confusing to see them switched in your post.
carlo

Last and more important: I found your result incredible, so I tried to replicate it in R and I got a completely opposite result: normal approximation gives smaller confidence intervals to me! this is the code I used: curve(sqrt(-log(.025)/2/x), to= 100, col= 'red', xlab= 'n', ylab= 'half interval') #Hoeffding ; curve(qnorm(.975, 0, .5/sqrt(x)), to= 100, add= T, col= 'darkgreen') #normal approximation
carlo

0

let's start with the number 30: it's, as anyone will say, a rule of thumb. but how can we find a number that fits better to our data? It's actually mostly a matter of skewness: even the strangest distribution will fast converge to normal if they are simmetric and continuous, skewed data will be much slower. I remember learning that a binomial distribution can be properly approximated to normal when its variance is greater than 9; for this example it's to be considered that discrete distribution also have the problem that they need great numbers to simulate continuity, but think to this: a simmetric binomial distribution will reach that variance with n = 36, if p = 0.1 instead, n must go up to 100 (variabile trasformation, however, would help a lot)!

If you only want to use variance instead, dropping gaussian approximation, consider Vysochanskij–Petunin inequality over Chebichev's, it needs the assumption of unimodal distribution of the mean, but this is a very safe one with any sample size, I'd say, greater than 2.


Could you add a reference for " Vysochanskij–Petunin inequality "? Never heard of it!
kjetil b halvorsen

wikipedia docet
carlo

Can you express the rate of convergence in terms of the skewdness? Why is a sample size of, you'd say 2, enough for unimodality? How is the Vysochanskij–Petunin inequality an improvement over Chebychev if you need to double or triple the sample size for it to apply?
Olivier

I made a fast google search and I found out that binomial distribution is actually often used to explain different sample size need for skewed data, but I didn't find, and I guess there is no accepted "rate of convergence in terms of the skewdness".
carlo

Vysochanskij–Petunin inequality is more efficent than Chebychev's, so it doesn't need a greater sample at all, but it has some use constraints: first, you have to have a continuous distribution, than, it has to be unimodal (no local modes are allowed). It may seem strange to drop normality assumption to adopt another one, but if your data is not discrete, sample mean should eliminate local modes even with very small samples. Fact is that mean has much of a bell distribution and, also if it can be skewed or have fat tails, it quickly comes to only have one mode.
carlo
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.