Mà có nghĩa là những gì sử dụng và sử dụng khi nào?


197

Vì vậy, chúng ta có trung bình số học (AM), trung bình hình học (GM) và trung bình hài (HM). Công thức toán học của họ cũng được biết đến cùng với các ví dụ khuôn mẫu liên quan của họ (ví dụ: ý nghĩa hài hòa và đó là ứng dụng cho các vấn đề liên quan đến 'tốc độ').

Tuy nhiên, một câu hỏi luôn khiến tôi tò mò là "làm thế nào để tôi quyết định nghĩa nào là phù hợp nhất để sử dụng trong một bối cảnh nhất định?" Phải có ít nhất một số quy tắc để giúp hiểu được khả năng áp dụng và câu trả lời phổ biến nhất mà tôi đã gặp là: "Nó phụ thuộc" (nhưng dựa vào cái gì?).

Đây có vẻ là một câu hỏi khá tầm thường nhưng ngay cả các văn bản ở trường trung học cũng không giải thích được điều này - chúng chỉ cung cấp các định nghĩa toán học!

Tôi thích một lời giải thích bằng tiếng Anh hơn một bài toán - bài kiểm tra đơn giản sẽ là "mẹ / con bạn có hiểu không?"


20
Điều này có thể đơn giản hóa nhưng tôi luôn sử dụng phạm vi và quan sát. Nếu phạm vi là như nhau = AM (so sánh điểm 0-100, với 0-100), nếu phạm vi khác nhau nhưng quan sát là như nhau = GM (so sánh điểm 1-5, với 0-10), nếu phạm vi giống nhau nhưng quan sát là khác nhau = HM (tốc độ của một chiếc xe ở mức độ khác nhau, chiều cao của hai thang, "giá" khác).
Brandon Bertelsen

> "Nó phụ thuộc" (nhưng vào cái gì?) Nó phụ thuộc vào thuật toán xử lý dữ liệu.
Macson

Nó không chỉ là một sự lựa chọn có nghĩa là sử dụng. Đây cũng là một lựa chọn về tập hợp các số liệu thống kê tóm tắt để mô tả dân số hoặc quá trình quan tâm. Mọi người không nên nghĩ rằng tất cả những gì cần thiết là một con số duy nhất để mô tả một cái gì đó có thể phức tạp lớn.
JimB

Câu trả lời:


160

Câu trả lời này có thể có một chút uốn cong toán học hơn bạn đang tìm kiếm.

Điều quan trọng để nhận ra là tất cả các phương tiện này chỉ đơn giản là ý nghĩa số học được ngụy trang .

Đặc điểm quan trọng trong việc xác định (nếu có!) Trong ba phương tiện phổ biến (số học, hình học hoặc điều hòa) là "quyền" có nghĩa là tìm "cấu trúc phụ gia" trong câu hỏi.

Nói cách khác, giả sử chúng tôi đã đưa ra một số đại lượng trừu tượng , mà tôi sẽ gọi là "phép đo", phần nào lạm dụng thuật ngữ này dưới đây để đảm bảo tính nhất quán. Mỗi trong số ba phương tiện này có thể thu được bằng cách (1) biến đổi mỗi thành một số , (2) lấy trung bình số học và sau đó (3) chuyển trở lại thang đo ban đầu.x1,x2,,xnxiyi

Trung bình số học : Rõ ràng, chúng tôi sử dụng phép chuyển đổi "danh tính": . Vì vậy, các bước (1) và (3) là tầm thường (không có gì được thực hiện) và .yi=xix¯AM=y¯

Ý nghĩa hình học : Ở đây cấu trúc phụ gia nằm trên logarit của các quan sát ban đầu. Vì vậy, chúng tôi lấy và sau đó để đưa GM vào bước (3), chúng tôi chuyển đổi trở lại thông qua chức năng nghịch đảo của , tức là .yi=logxilogx¯GM=exp(y¯)

Ý nghĩa hài hòa : Ở đây cấu trúc phụ gia nằm trên các đối ứng của các quan sát của chúng tôi. Vì vậy, , từ đâu .yi=1/xix¯HM=1/y¯

Trong các vấn đề vật lý, những vấn đề này thường phát sinh qua quy trình sau: Chúng tôi có một số lượng vẫn cố định liên quan đến các phép đo và một số đại lượng khác, giả sử . Bây giờ, chúng tôi chơi các trò chơi như sau: Giữ và liên tục và cố gắng để tìm thấy một số ví dụ rằng nếu chúng ta thay thế từng quan sát cá nhân của chúng tôi bởi , sau đó là "tổng" mối quan hệ vẫn còn được bảo tồn .wx1,,xnz1,,znwz1++znx¯xix¯

Ví dụ về thời gian vận tốc từ xa dường như rất phổ biến, vì vậy hãy sử dụng nó.

Khoảng cách không đổi, thời gian khác nhau

Xem xét một khoảng cách cố định đi . Bây giờ, giả sử chúng ta di chuyển khoảng cách này lần khác nhau ở các tốc độ , mất thời gian . Bây giờ chúng tôi chơi trò chơi của chúng tôi. Giả sử chúng ta muốn thay thế vận tốc riêng bằng một số vận tốc cố định sao cho tổng thời gian không đổi. Lưu ý rằng chúng ta có sao cho . Chúng tôi muốn tổng quan hệ này (tổng thời gian và tổng quãng đường đã đi) được bảo toàn khi chúng tôi thay thế từng bằng trong trò chơi của chúng tôi. Do đó, dnv1,,vnt1,,tnv¯

dviti=0,
i(dviti)=0viv¯
ndv¯iti=0,
và vì mỗi , chúng tôi nhận được ti=d/vi
v¯=n1v1++1vn=v¯HM.

Lưu ý rằng "cấu trúc phụ gia" ở đây liên quan đến thời gian riêng lẻ và các phép đo của chúng tôi có liên quan nghịch đảo với chúng, do đó áp dụng điều hòa có nghĩa.

Thay đổi khoảng cách, thời gian không đổi

Bây giờ, hãy thay đổi tình hình. Giả sử trong trường hợp, chúng ta di chuyển một thời gian cố định với vận tốc trên khoảng cách . Bây giờ, chúng tôi muốn tổng khoảng cách được bảo tồn. Chúng ta có và toàn bộ hệ thống được bảo toàn nếu . Chơi lại trò chơi của chúng tôi, chúng tôi tìm kiếm một sao cho nhưng, vì , chúng tôi nhận được ntv1,,vnd1,,dn

divit=0,
i(divit)=0v¯
i(div¯t)=0,
di=vit
v¯=1nivi=v¯AM.

Ở đây, cấu trúc phụ gia mà chúng tôi đang cố gắng duy trì tỷ lệ thuận với các phép đo chúng tôi có, do đó, trung bình số học được áp dụng.

Khối lượng bằng nhau

Giả sử chúng ta đã xây dựng một hộp chiều có thể tích cho trước và các phép đo của chúng ta là độ dài cạnh của hộp. Sau đó, và giả sử chúng tôi muốn xây dựng một khối lập phương -chiều (hyper) với cùng một âm lượng. Đó là, chúng tôi muốn thay thế riêng lẻ của chúng tôi bằng một chiều dài chung . Khi đó nV

V=x1x2xn,
nxix¯
V=x¯x¯x¯=x¯n.

Điều này dễ dàng chỉ ra rằng chúng ta nên lấy .x¯=(xixn)1/n=x¯GM

Lưu ý rằng cấu trúc phụ gia nằm trong logarit, nghĩa là, và chúng tôi đang cố gắng bảo tồn số lượng bên trái.logV=ilogxi

Phương tiện mới từ cũ

Như một bài tập, hãy nghĩ về ý nghĩa của "tự nhiên" trong tình huống bạn để cả khoảng cách và thời gian khác nhau trong ví dụ đầu tiên. Đó là, chúng ta có khoảng cách , vận tốc và lần . Chúng tôi muốn bảo tồn tổng quãng đường và thời gian đã đi và tìm một không đổi để đạt được điều này.v i t i ˉ vdivitiv¯

Bài tập : "tự nhiên" có nghĩa là gì trong tình huống này?


25
+1 Đây là một câu trả lời tuyệt vời. Tuy nhiên, tôi nghĩ rằng nó không đầy đủ theo một cách quan trọng: trong nhiều trường hợp, ý nghĩa sử dụng đúng được xác định bởi câu hỏi mà chúng tôi đang cố gắng trả lời thay vì bất kỳ cấu trúc toán học nào trong dữ liệu. Một ví dụ điển hình về điều này xảy ra trong đánh giá rủi ro môi trường: các cơ quan quản lý muốn ước tính tổng phơi nhiễm của dân số đối với các chất gây ô nhiễm theo thời gian. Điều này đòi hỏi một trung bình số học có trọng số phù hợp, mặc dù dữ liệu tập trung môi trường thường có cấu trúc nhân . Giá trị trung bình hình học sẽ là ước tính sai hoặc ước tính.
whuber

7
@whuber: (+1) Đây là một nhận xét tuyệt vời. Trên con đường xây dựng câu trả lời của mình, tôi đã chọn một ngã ba phi kinh tế, vì vậy tôi rất vui vì bạn đã đề cập đến vấn đề này. Đây là một chủ đề xứng đáng với một câu trả lời hoàn chỉnh ( gợi ý ).
Đức hồng y

9
@whuber: Nó cũng đưa ra một thực tế (có lẽ vô tình), phân tích thống kê đôi khi có thể phải chịu sự giám sát của các chuyên gia tên miền (hoặc, có lẽ trong ví dụ của bạn, thậm chí là không có ai), những người muốn ước tính điều gì đó có ý nghĩa với miền của họ nhưng hầu như hoàn toàn không tự nhiên về mặt thống kê. Vấn đề tôi gặp phải trong quá khứ là đôi khi họ cũng muốn đưa ra cách thức ước tính thống kê được thực hiện! :)
Đức hồng y

1
@whuber: Sẽ rất được đánh giá cao nếu bạn có thể thêm quan điểm đó vào câu trả lời, với một số chi tiết. Thành thật mà nói, lời giải thích của bạn là một trong những điều tốt nhất tôi từng thấy trên Stats.SE!
Tiến sĩ

3
Các bình luận tuyệt vời thông thường từ @whuber. Đôi khi (có lẽ thường xuyên!) Nghĩa là đúng để sử dụng là không có ; thay vào đó, câu hỏi thường cần được mở rộng thành "tôi nên sử dụng biện pháp nào cho xu hướng trung tâm?".
Peter Flom

43

Mở rộng trên nhận xét xuất sắc của @Brandon (mà tôi nghĩ nên được quảng bá để trả lời):

Trung bình hình học nên được sử dụng khi bạn quan tâm đến sự khác biệt nhân. Brandon lưu ý rằng trung bình hình học nên được sử dụng khi phạm vi khác nhau. Điều này thường đúng. Lý do là chúng tôi muốn cân bằng các phạm vi. Ví dụ, giả sử ứng viên đại học được đánh giá dựa trên điểm SAT (0 đến 800), điểm trung bình ở HS (0 đến 4) và các hoạt động ngoại khóa (1 đến 10). Nếu một trường đại học muốn tính trung bình các mức này và cân bằng các phạm vi (nghĩa là, trọng lượng tăng theo từng chất lượng so với phạm vi) thì trung bình hình học sẽ là hướng đi.

Nhưng điều này không phải lúc nào cũng đúng khi chúng ta có thang đo với các phạm vi khác nhau. Nếu chúng ta so sánh thu nhập ở các quốc gia khác nhau (bao gồm cả những người nghèo và giàu), có lẽ chúng ta sẽ không muốn trung bình hình học, nhưng trung bình số học (hoặc, nhiều khả năng là trung bình hoặc có lẽ là trung bình cắt).

Việc sử dụng duy nhất tôi thấy cho ý nghĩa hài hòa là so sánh tỷ lệ. Ví dụ: Nếu bạn lái xe từ New York đến Boston với 40 MPH và trở về 60 MPH, thì trung bình tổng thể của bạn không phải là trung bình số học của 50 MPH, mà là trung bình hài hòa.

AM = HM =2 / ( 1 / 40 + 1 / 60 ) = 48(40+60)/2=502/(1/40+1/60)=48

để kiểm tra rằng đây là phù hợp với ví dụ đơn giản này, hãy tưởng tượng nó là 120 dặm từ NYC Boston. Sau đó, các ổ đĩa có mất 3 giờ, ngôi nhà ổ mất 2 giờ, tổng số là 5 giờ, và khoảng cách là 240 dặm. 240/5=48


3
Tại sao ví dụ SAT / GPA / ngoại khóa của bạn sẽ sử dụng trung bình hình học thay vì trung bình số học có trọng số hoặc tỷ lệ? Tại sao SAT hoặc GPA bằng 0 có nghĩa là hai giá trị kia trở nên không liên quan (như một ý nghĩa hình học sẽ ngụ ý)? Và điều gì xảy ra nếu (nói) các hoạt động ngoại khóa có xu hướng co cụm trong một dải hẹp hơn nhiều so với phạm vi lý thuyết của nó? Có vẻ như sẽ có ý nghĩa hơn khi lấy trung bình số học của phần trăm (hoặc các giá trị được điều chỉnh khác) hơn là trung bình hình học của các giá trị thô.
ruakh

1
@ruakh Thú vị. Vấn đề 0 không thực sự quan trọng trong trường hợp này, vì SAT và GPA thực sự không thể là 0 (SAT = 0 là gần như không thể, và GPA 0 sẽ không tốt nghiệp). Tôi nghĩ rằng một trung bình số học của phần trăm sẽ gần với trung bình hình học trong kết luận của nó (mặc dù không phải trong các số thực tế).
Peter Flom

31

Tôi sẽ cố gắng đun sôi nó xuống còn 3-4 quy tắc và cung cấp thêm một số ví dụ về phương tiện Pythagore.

Mối quan hệ giữa 3 phương tiện là HM <GM <AM cho dữ liệu không âm với một số biến thể . Chúng sẽ bằng nhau khi và chỉ khi không có biến thể nào trong dữ liệu mẫu.

Đối với dữ liệu theo cấp độ, sử dụng AM. Giá cả là một ví dụ tốt. Đối với tỷ lệ, sử dụng GM. Lợi nhuận đầu tư, giá tương đối như chỉ số Bloomberg Billy (giá của kệ sách Billy của Ikea ở nhiều quốc gia khác nhau so với giá của Hoa Kỳ) và Chỉ số Phát triển Con người của Liên Hợp Quốc là tất cả các ví dụ. HM là thích hợp khi giao dịch với tỷ lệ. Đây là một ví dụ phi ô tô của David Giles :

Chẳng hạn, hãy xem xét dữ liệu về "số giờ làm việc mỗi tuần" (một tỷ lệ). Giả sử rằng chúng ta có bốn người (quan sát mẫu), mỗi người làm việc tổng cộng 2.000 giờ. Tuy nhiên, chúng hoạt động với số giờ khác nhau mỗi tuần, như sau:

Person      Total Hours       Hours per Week          Weeks Taken
1                  2,000                  40                   50
2                  2,000                  45                   44.4444
3                  2,000                  35                   57.142857
4                  2,000                  50                   40

Total:           8,000                                       191.587297

Giá trị trung bình số học của các giá trị trong cột thứ ba là AM = 42,5 giờ mỗi tuần. Tuy nhiên, hãy chú ý những gì giá trị này ngụ ý. Chia tổng số tuần làm việc của các thành viên mẫu (8.000) cho giá trị trung bình này mang lại giá trị là 188.2353 khi tổng số tuần làm việc của cả bốn người.

Bây giờ hãy nhìn vào cột cuối cùng trong bảng trên. Trong thực tế, giá trị chính xác cho tổng số tuần làm việc của các thành viên mẫu là 191,5873 tuần. Nếu chúng ta tính Giá trị trung bình hài hòa cho các giá trị cho Số giờ mỗi tuần trong cột thứ ba của bảng, chúng ta sẽ nhận được HM = 41.75642 giờ (<AM) và chia số này cho 8.000 giờ cho chúng ta kết quả chính xác là 191.5873 cho tổng số của tuần làm việc. Dưới đây là trường hợp Trung bình hài cung cấp số đo thích hợp cho trung bình mẫu.

David cũng thảo luận về phiên bản có trọng số của 3 phương tiện, xuất hiện trong các chỉ số giá được sử dụng để đo lường lạm phát.

Một bên cạnh vụ cướp

Những ROT này không hoàn hảo. Ví dụ, tôi thường khó tìm ra nếu một cái gì đó là tỷ lệ hoặc tỷ lệ. Lợi nhuận của một khoản đầu tư thường được coi là tỷ lệ khi tính toán phương tiện, nhưng chúng cũng là một tỷ lệ vì chúng thường được tính bằng "x% trên mỗi đơn vị thời gian". "Sử dụng HM khi dữ liệu ở mức trên mỗi đơn vị thời gian" sẽ là một heuristic tốt hơn?

Nếu bạn muốn tóm tắt Chỉ số Big Mac cho các quốc gia Bắc Âu, bạn có sử dụng GM không?


3
Một vài năm muộn màng, nhưng bạn đã bao giờ tìm thấy câu trả lời cho câu hỏi của mình chưa: "Nếu bạn muốn tóm tắt Chỉ số Big Mac cho các quốc gia Bắc Âu, bạn có sử dụng GM không?" ?
Số liệu thống kê

2
@StatsScared Không, nhưng đó sẽ là một câu hỏi hay!
Dimitriy V. Masterov

7

Một câu trả lời khả dĩ cho câu hỏi của bạn ("làm thế nào để tôi quyết định nghĩa nào là phù hợp nhất để sử dụng trong một bối cảnh nhất định?") Là định nghĩa về nghĩa được đưa ra bởi nhà toán học người Ý Oscar Chisini .

Dưới đây là một bài viết với một lời giải thích chi tiết hơn và một số ví dụ (có nghĩa là tốc độ di chuyển và những người khác).


6
Thật là lý tưởng nếu bạn có thể thêm một vài dòng về định nghĩa của Chisini ở đây trong trường hợp liên kết bị chết, & / hoặc để giúp người đọc biết nếu họ muốn nhấp vào liên kết để theo đuổi các ý tưởng hơn nữa.
gung

2
Thật vậy, liên kết đến bài báo đã chết. Liên kết Wolfram không cung cấp bất kỳ thông tin chi tiết nào về cách định nghĩa Chisini hữu ích để xác định nghĩa nào sẽ được sử dụng trong ngữ cảnh cụ thể; đối với tôi nó dường như chỉ là một khái quát toán học trái ngược với đơn thuốc sử dụng.
Ryan Simmons

1
Bằng cách sử dụng DOI, người ta có thể thấy rằng bài báo đã được chuyển đến tandfonline.com. Trích dẫn: R Graziani, P Veronese (2009). Làm thế nào để tính một trung bình? Cách tiếp cận Chisini và các ứng dụng của nó. Nhà thống kê người Mỹ 63 (1), trang 33-36. tandfonline.com/doi/abs/10.1198/tast.2009.0006
akraf

0

Tôi nghĩ rằng một cách đơn giản để trả lời câu hỏi sẽ là:

  1. Nếu cấu trúc toán học là xy = k (mối quan hệ nghịch đảo giữa các biến) và bạn đang tìm trung bình, thì bạn cần sử dụng trung bình hài - có nghĩa là trung bình số học có trọng số - hãy xem xét

Trung bình hài = 2ab / (a ​​+ b) = a (b / a + b) + b (a / (a ​​+ b)

Ví dụ: trung bình chi phí bằng đồng đô la rơi vào loại này vì số tiền bạn đầu tư (A) không đổi, nhưng giá trên mỗi cổ phiếu (P) và số cổ phần (N) khác nhau (A = PN). Trong thực tế, nếu bạn nghĩ trung bình số học là một số có tâm bằng nhau giữa hai số, thì trung bình hài cũng là một số có tâm ở giữa hai số nhưng (và điều này là tốt) "trung tâm" là nơi có tỷ lệ (tỷ lệ) công bằng. Đó là: (x - a) / a = (b -x) / b, trong đó x là trung bình điều hòa.

  1. Nếu cấu trúc toán học là một biến thể trực tiếp y = kx, bạn sử dụng trung bình số học - đó là ý nghĩa của điều hòa trong trường hợp này.

1
Tôi nghĩ rằng bạn cần kiểm tra dấu ngoặc của bạn khớp với phương trình trung bình hài hòa của bạn - lưu ý rằng bạn có thể sử dụng đánh dấu latex cho việc sắp chữ toán học của mình bằng cách bao quanh nó bằng ký hiệu đô la, ví dụ: $x$tạo ra . Đối với lưu ý phân số tạo ra . Xem trợ giúp chỉnh sửa của chúng tôi để biết thêm thông tin. ax\frac{a}{b}ab
Cá bạc

Giả sử bạn muốn tập hợp trung bình xác suất của một số mô hình khác nhau. Trong trường hợp đó, nó có bao giờ có ý nghĩa để sử dụng ý nghĩa hình học hoặc hài hòa?
thecity2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.