Người ta có thể kết luận gì về dữ liệu khi trung bình số học rất gần với trung bình hình học?


24

Có bất cứ điều gì có ý nghĩa về một ý nghĩa hình học và số học có nghĩa là rất gần với nhau, nói ~ 0,1%? Những phỏng đoán nào có thể được thực hiện về một tập dữ liệu như vậy?

Tôi đã làm việc để phân tích một tập dữ liệu và tôi nhận thấy rằng trớ trêu thay các giá trị rất, rất gần. Không chính xác, nhưng gần gũi. Ngoài ra, kiểm tra nhanh chóng về bất bình đẳng trung bình hình học trung bình số học cũng như đánh giá thu thập dữ liệu cho thấy rằng không có gì đáng ngại về tính toàn vẹn của dữ liệu của tôi về cách tôi đưa ra các giá trị.


6
Lưu ý nhỏ: Đầu tiên hãy kiểm tra dữ liệu của bạn đều tích cực; số lượng giá trị âm thậm chí có thể khiến bạn có sản phẩm dương và một số gói có thể không đánh dấu vấn đề tiềm ẩn (bất bình đẳng AM-GM phụ thuộc vào các giá trị đều dương). Xem ví dụ (trong R):x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x)) [1] 3.383363 (trong khi trung bình số học là 1)
Glen_b -Reinstate Monica

1
Để giải thích về quan điểm của @ Glen_b, một tập dữ liệu luôn có số học và trung bình hình học bằng nhau, cụ thể là số không. Tuy nhiên, chúng ta có thể trải rộng ba giá trị cách xa nhau như chúng ta muốn. {x,0,x}
hardmath

Cả hai phương tiện số học và hình học đều có cùng một công thức tổng quát , với cho cái trước và p 0 cho cái sau. Sau đó, nó trở nên rõ ràng bằng trực giác rằng hai người trở nên ngày càng gần nhau hơn khi các giá trị dữ liệu x ngày càng nhiều hơn bằng nhau, tiếp cận hằng số. p=1p0x
ttnphns

Câu trả lời:


29

Giá trị trung bình số học có liên quan đến trung bình hình học thông qua bất đẳng thức Số học-Trung bình-Hình học-Trung bình (AMGM) trong đó nêu rõ:

x1+x2++xnnx1x2xnn,

trong đó đẳng thức đạt được iff . Vì vậy, có lẽ các điểm dữ liệu của bạn rất gần nhau.x1=x2==xn


4
Đúng rồi đó. Thông thường, phương sai của các giá trị càng nhỏ, hai phương tiện càng gần nhau.
Michael M

16
Phương sai sẽ phải nhỏ B COMPNG SO SÁNH theo kích thước của các quan sát. Vì vậy nó là hệ số biến thiên, , đó sẽ phải nhỏ.σ/μ
Michael Hardy

1
Liệu AMGM có đại diện cho bất cứ điều gì? Nếu vậy, nó sẽ là tốt đẹp để nó đánh vần ra.
Richard Hardy

@RichardHardy: AMGM là viết tắt của 'trung bình số học - trung bình hình học'

1
@ user1108, cảm ơn, thực sự, tôi đã nhận được nó sau khi đọc các bài viết khác. Tôi chỉ nghĩ rằng nó có thể được đánh vần trong câu trả lời (không chỉ trong các ý kiến).
Richard Hardy

15

Xây dựng câu trả lời của @Alex R, một cách để xem bất đẳng thức AMGM là hiệu ứng bất bình đẳng của Jensen. Do bất bình đẳng của Jensen : Sau đó lấy số mũ của cả hai bên: 1

log(1nixi)1nilogxi
1nixiexp(1nilogxi)

Phía bên tay phải là giá trị trung bình hình học từ (x1x2xn)1/n=exp(1nilogxi)

Khi nào bất đẳng thức AMGM giữ với gần bằng? Khi hiệu ứng bất bình đẳng của Jensen là nhỏ. Điều thúc đẩy hiệu ứng bất bình đẳng của Jensen ở đây là độ chụm, độ cong của logarit. Nếu dữ liệu của bạn được trải rộng trên một khu vực nơi logarit có độ cong, hiệu ứng sẽ rất lớn. Nếu dữ liệu của bạn được trải rộng trên một khu vực nơi logarit về cơ bản là affine, thì hiệu ứng sẽ nhỏ.

Ví dụ: nếu dữ liệu có ít biến thể, được gộp lại trong một vùng lân cận đủ nhỏ, thì logarit sẽ trông giống như một hàm affine trong vùng đó (một chủ đề của phép tính là nếu bạn phóng to đủ vào hàm trơn tru, liên tục, đó là nó sẽ trông giống như một dòng). Đối với dữ liệu đủ gần nhau, giá trị trung bình số học của dữ liệu sẽ gần với giá trị trung bình hình học.


12

Hãy điều tra phạm vi của cho rằng trung bình cộng của họ (AM) là một bội số nhỏ 1 + δ của trung bình hình học của họ (GM) (với δ 0 ). Trong câu hỏi, delta 0,001 nhưng chúng ta không biết n .x1x2xn1+δδ0δ0.001n

Vì tỷ lệ của các phương tiện này không thay đổi khi các đơn vị đo lường được thay đổi, hãy chọn một đơn vị mà GM là . Do đó, chúng tôi tìm cách tối đa hóa x n chịu sự ràng buộc x 1 + x 2 + + x n = n ( 1 + δ )x 1x 2x n = 11xnx1+x2++xn=n(1+δ)x1x2xn=1 .

x1=x2==xn1=x, say, and xn=zx. Thus

n(1+δ)=x1++xn=(n1)x+z

and

1=x1x2xn=xn1z.

x01

(1n)xn+n(1+δ)xn11.

It is easily found iteratively. Here are the graphs of the optimal x and z as a function of δ for n=6,20,50,150, left to right:

Figure

As soon as n reaches any appreciable size, even a tiny ratio of 1.001 is consistent with one large outlying xn (the upper red curves) and a group of tightly clustered xi (the lower blue curves).

At the other extreme, suppose n=2k is even (for simplicity). The minimum range is achieved when half the xi equal one value x1 and the other half equal another value z1. Now the solution (which is easily checked) is

xk=1+δ±δ2+2δ.

For tiny δ, we may ignore the δ2 as an approximation and also approximate the kth root to first order, giving

x1+δ2δk; z1+δ+2δk.

The range is approximately 32δ/n.

In this manner we have obtained upper and lower bounds on the possible range of the data. We have learned that they depend heavily on the amount of data n. The upper bound shows the range can be appreciable even for tiny δ, thereby improving our sense of just how close to each other the data points really need to be--and placing a lower limit on their range, too.

Similar analyses, just as easily carried out, can inform you--quantitatively--of how tightly clustered the xi might be in terms of any other measure of spread, such as their variance or coefficient of variation.


On the right of your right hand graph you seem to have n=150,δ=0.002,x0.9954,z1.983,k=75. I do not see how these values are near your stated formulae approximations which seem to give x0.99918,z1.00087. Perhaps I have misunderstood
Henry

@Henry I don't know how you came up with those numbers. When n=150, the requirements are that x149z=1 and 149x+z=150(1.002)=150.3. Neither of those comes close to being true for the values you supply. When you plug in x=0.995416 and z=1.98308, you get the correct values.
whuber

I tried what looks to me like your z1+δ+2δk=1+0.002+2×0.002751.00087 and similarly for x. But now I see this is answering a different question
Henry

@Henry That solves a different problem: those are the values that give a minimum range. I did not post graphs for those. Indeed, with your x and z we have 75x+75z150.3 and x75z751, as required.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.