Người ta có thể kết luận gì về dữ liệu khi trung bình số học rất gần với trung bình hình học?

Có bất cứ điều gì có ý nghĩa về một ý nghĩa hình học và số học có nghĩa là rất gần với nhau, nói ~ 0,1%? Những phỏng đoán nào có thể được thực hiện về một tập dữ liệu như vậy?

Tôi đã làm việc để phân tích một tập dữ liệu và tôi nhận thấy rằng trớ trêu thay các giá trị rất, rất gần. Không chính xác, nhưng gần gũi. Ngoài ra, kiểm tra nhanh chóng về bất bình đẳng trung bình hình học trung bình số học cũng như đánh giá thu thập dữ liệu cho thấy rằng không có gì đáng ngại về tính toàn vẹn của dữ liệu của tôi về cách tôi đưa ra các giá trị.

descriptive-statistics mean geometric-mean

— người dùng 12289
nguồn

Lưu ý nhỏ: Đầu tiên hãy kiểm tra dữ liệu của bạn đều tích cực; số lượng giá trị âm thậm chí có thể khiến bạn có sản phẩm dương và một số gói có thể không đánh dấu vấn đề tiềm ẩn (bất bình đẳng AM-GM phụ thuộc vào các giá trị đều dương). Xem ví dụ (trong R):x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x))

$\:\quad$ [1] 3.383363 (trong khi trung bình số học là 1)

— Glen_b -Reinstate Monica

Để giải thích về quan điểm của @ Glen_b, một tập dữ liệu

luôn có số học và trung bình hình học bằng nhau, cụ thể là số không. Tuy nhiên, chúng ta có thể trải rộng ba giá trị cách xa nhau như chúng ta muốn.

{- x, 0, x}

$\{-x,0,x\}$

— hardmath

Cả hai phương tiện số học và hình học đều có cùng một công thức tổng quát , với

cho cái trước và

cho cái sau. Sau đó, nó trở nên rõ ràng bằng trực giác rằng hai người trở nên ngày càng gần nhau hơn khi các giá trị dữ liệu

ngày càng nhiều hơn bằng nhau, tiếp cận hằng số.

p = 1

$p=1$

p \to 0

$p \rightarrow 0$

x

$x$

— ttnphns

Câu trả lời:

Giá trị trung bình số học có liên quan đến trung bình hình học thông qua bất đẳng thức Số học-Trung bình-Hình học-Trung bình (AMGM) trong đó nêu rõ:

\frac{x_{1} + x_{2} + \dots + x_{n}}{n} \geq \sqrt[n]{x_{1} x_{2} \dots x_{n}},

$\frac{x_1+x_2+\cdots+x_n} n \geq \sqrt[n]{x_1 x_2\cdots x_n},$

trong đó đẳng thức đạt được iff . Vì vậy, có lẽ các điểm dữ liệu của bạn rất gần nhau. $x_1=x_2=\cdots=x_n$

— Alex R.
nguồn

Đúng rồi đó. Thông thường, phương sai của các giá trị càng nhỏ, hai phương tiện càng gần nhau.

— Michael M

Phương sai sẽ phải nhỏ B COMPNG SO SÁNH theo kích thước của các quan sát. Vì vậy nó là hệ số biến thiên,

, đó sẽ phải nhỏ.

σ / μ

$\sigma/\mu$

$\qquad$

— Michael Hardy

Liệu AMGM có đại diện cho bất cứ điều gì? Nếu vậy, nó sẽ là tốt đẹp để nó đánh vần ra.

— Richard Hardy

@RichardHardy: AMGM là viết tắt của 'trung bình số học - trung bình hình học'

@ user1108, cảm ơn, thực sự, tôi đã nhận được nó sau khi đọc các bài viết khác. Tôi chỉ nghĩ rằng nó có thể được đánh vần trong câu trả lời (không chỉ trong các ý kiến).

— Richard Hardy

Xây dựng câu trả lời của @Alex R, một cách để xem bất đẳng thức AMGM là hiệu ứng bất bình đẳng của Jensen. Do bất bình đẳng của Jensen : Sau đó lấy số mũ của cả hai bên:

\log (\frac{1}{n} \sum_{i} x_{i}) \geq \frac{1}{n} \sum_{i} \log x_{i}

$\log\left( \frac{1}{n} \sum_i x_i \right) \geq \frac{1}{n} \sum_i \log x_i$

\frac{1}{n} \sum_{i} x_{i} \geq \exp (\frac{1}{n} \sum_{i} \log x_{i})

$\frac{1}{n} \sum_i x_i \geq \exp\left( \frac{1}{n} \sum_i \log x_i \right)$

Phía bên tay phải là giá trị trung bình hình học từ $\left(x_1 \cdot x_2 \cdot \ldots \cdot x_n \right)^{1/n} = \exp\left(\frac{1}{n} \sum_i \log x_i \right)$

Khi nào bất đẳng thức AMGM giữ với gần bằng? Khi hiệu ứng bất bình đẳng của Jensen là nhỏ. Điều thúc đẩy hiệu ứng bất bình đẳng của Jensen ở đây là độ chụm, độ cong của logarit. Nếu dữ liệu của bạn được trải rộng trên một khu vực nơi logarit có độ cong, hiệu ứng sẽ rất lớn. Nếu dữ liệu của bạn được trải rộng trên một khu vực nơi logarit về cơ bản là affine, thì hiệu ứng sẽ nhỏ.

Ví dụ: nếu dữ liệu có ít biến thể, được gộp lại trong một vùng lân cận đủ nhỏ, thì logarit sẽ trông giống như một hàm affine trong vùng đó (một chủ đề của phép tính là nếu bạn phóng to đủ vào hàm trơn tru, liên tục, đó là nó sẽ trông giống như một dòng). Đối với dữ liệu đủ gần nhau, giá trị trung bình số học của dữ liệu sẽ gần với giá trị trung bình hình học.

— Matthew Gunn
nguồn

Hãy điều tra phạm vi của cho rằng trung bình cộng của họ (AM) là một bội số nhỏ của trung bình hình học của họ (GM) (với ). Trong câu hỏi, nhưng chúng ta không biết . $x_1\le x_2 \le \cdots \le x_n$ $1+\delta$ $\delta \ge 0$ $\delta\approx 0.001$ $n$

Vì tỷ lệ của các phương tiện này không thay đổi khi các đơn vị đo lường được thay đổi, hãy chọn một đơn vị mà GM là . Do đó, chúng tôi tìm cách tối đa hóa chịu sự ràng buộc và $1$ $x_n$ $x_1+x_2+\cdots+x_n = n(1+\delta)$ $x_1\cdot x_2\cdots x_n = 1$ .

$x_1=x_2=\cdots=x_{n-1}=x$ , say, and $x_n=z \ge x$ . Thus

n (1 + δ) = x_{1} + \dots + x_{n} = (n - 1) x + z

$n(1+\delta) = x_1 + \cdots + x_n = (n-1)x + z$

and

1 = x_{1} \cdot x_{2} \dots x_{n} = x^{n - 1} z .

$1 = x_1\cdot x_2 \cdots x_n = x^{n-1}z.$

$x$ $0$ $1$

(1 - n) x^{n} + n (1 + δ) x^{n - 1} - 1.

$(1-n)x^n + n(1+\delta)x^{n-1} - 1.$

It is easily found iteratively. Here are the graphs of the optimal $x$ and $z$ as a function of $\delta$ for $n=6, 20, 50, 150$ , left to right:

As soon as $n$ reaches any appreciable size, even a tiny ratio of $1.001$ is consistent with one large outlying $x_n$ (the upper red curves) and a group of tightly clustered $x_i$ (the lower blue curves).

At the other extreme, suppose $n=2k$ is even (for simplicity). The minimum range is achieved when half the $x_i$ equal one value $x \le 1$ and the other half equal another value $z \ge 1$ . Now the solution (which is easily checked) is

x^{k} = 1 + δ \pm \sqrt{δ^{2} + 2 δ} .

$x^k = 1+\delta \pm \sqrt{\delta^2 + 2\delta}.$

For tiny $\delta$ , we may ignore the $\delta^2$ as an approximation and also approximate the $k^\text{th}$ root to first order, giving

x \approx 1 + \frac{δ - \sqrt{2 δ}}{k}; z \approx 1 + \frac{δ + \sqrt{2 δ}}{k} .

$x \approx 1 + \frac{\delta-\sqrt{2\delta}}{k};\ z \approx 1 + \frac{\delta+\sqrt{2\delta}}{k}.$

The range is approximately $\sqrt{32\delta}/n$ .

In this manner we have obtained upper and lower bounds on the possible range of the data. We have learned that they depend heavily on the amount of data $n$ . The upper bound shows the range can be appreciable even for tiny $\delta$ , thereby improving our sense of just how close to each other the data points really need to be--and placing a lower limit on their range, too.

Similar analyses, just as easily carried out, can inform you--quantitatively--of how tightly clustered the $x_i$ might be in terms of any other measure of spread, such as their variance or coefficient of variation.

— whuber
nguồn

On the right of your right hand graph you seem to have

n = 150, δ = 0.002, x \approx 0.9954, z \approx 1.983, k = 75

$n=150, \delta=0.002, x\approx 0.9954, z \approx 1.983, k=75$ . I do not see how these values are near your stated formulae approximations which seem to give

x \approx 0.99918, z \approx 1.00087

$x \approx 0.99918, z\approx 1.00087$ . Perhaps I have misunderstood

— Henry

@Henry I don't know how you came up with those numbers. When

n = 150

$n=150$ , the requirements are that

x^{149} z = 1

$x^{149} z=1$ and

149 x + z = 150 (1.002) = 150.3

$149x + z=150(1.002)=150.3$ . Neither of those comes close to being true for the values you supply. When you plug in

x = 0.995416

$x=0.995416$ and

z = 1.98308

$z=1.98308$ , you get the correct values.

— whuber

I tried what looks to me like your

z \approx 1 + \frac{δ + \sqrt{2 δ}}{k} = 1 + \frac{0.002 + \sqrt{2 \times 0.002}}{75} \approx 1.00087

$z \approx 1 + \dfrac{\delta+\sqrt{2\delta}}{k} = 1+\dfrac{0.002+\sqrt{2\times 0.002} }{75} \approx 1.00087$ and similarly for

x

$x$ . But now I see this is answering a different question

— Henry

@Henry That solves a different problem: those are the values that give a minimum range. I did not post graphs for those. Indeed, with your

x

$x$ and

z

$z$ we have

75 x + 75 z \approx 150.3

$75x+75z\approx 150.3$ and

x^{75} z^{75} \approx 1

$x^{75}z^{75}\approx 1$ , as required.

— whuber