Giải thích về Ý nghĩa, Trung bình, Chế độ trong Điều khoản của Layman


10

Làm thế nào bạn sẽ giải thích khái niệm trung bình, trung bình và chế độ của một danh sách các số và tại sao chúng quan trọng đối với ai đó chỉ có các kỹ năng số học cơ bản? Chúng ta không đề cập đến độ lệch, CLT, xu hướng trung tâm, thuộc tính thống kê của họ, v.v.

Tôi đã giải thích cho ai đó có nghĩa chỉ là một cách nhanh chóng và bẩn thỉu để "tóm tắt" một danh sách các con số. Nhưng nhìn lại, điều này hầu như không được chiếu sáng.

Bất kỳ suy nghĩ hoặc ví dụ thế giới thực?


Chúng là "xu hướng trung tâm", còn gọi là "kết quả rất có thể" trong các lĩnh vực khác nhau. Cường độ, trật tự và tần số, đặc biệt. Thế giới thực cũng có sự biến đổi - vì vậy những thứ như độ lệch chuẩn, phạm vi giữa tứ phân vị (hoặc lượng tử) và phạm vi liên phương thức cũng khá hữu ích vì chúng chỉ ra "xu hướng biến đổi" hoặc "biến đổi điển hình trong kết quả".
EngrStudent 6/03/2016

Bạn có thể đưa ra một ví dụ rằng có một máy tạo số ngẫu nhiên. Bạn thu thập tất cả các số nó tạo ra trong một danh sách. Bây giờ bạn muốn trình bày nó cho bạn bè của bạn mà không cần trích dẫn mọi số trong danh sách. Vì vậy, bạn tìm kiếm các biện pháp có thể giúp bạn mô tả nó. Giá trị trung bình / trung bình / chế độ là ba biện pháp tương tự cung cấp cái nhìn sâu sắc về các thuộc tính cơ bản của máy.
Kevin Pei

@KevinPei Nhưng "nghĩa là" trong trường hợp này là gì? Trung bình / Trung bình / Chế độ không giải thích nhiều trong một ví dụ khép kín.
Dombey

1
Tìm giá trị trung bình là một vấn đề của việc tìm điểm xoay cân bằng bập bênh sau khi những đứa trẻ (có cùng trọng lượng) đã bắt tay vào nó với số lượng tùy ý và vào các vị trí tùy ý trên chùm tia. Tìm kiếm trung vị là cùng một nhiệm vụ, chỉ có những đứa trẻ được cho là co cụm chặt chẽ chỉ trong hai vị trí ở bên "bên này" hoặc "bên đó".
ttnphns

Bạn không thể giải thích điều này mà không có khái niệm phân phối. Chỉ với các kỹ năng số học cơ bản, bạn phải vẽ tranh.
Aksakal

Câu trả lời:


6

Cảm ơn bạn cho câu hỏi đơn giản nhưng sâu sắc này về các khái niệm thống kê cơ bản về trung bình, trung bình và chế độ. Có một số phương pháp / trình diễn tuyệt vời có sẵn để giải thích và nắm bắt một cách trực quan - thay vì số học - hiểu về các khái niệm này, nhưng tiếc là chúng không được biết đến rộng rãi (hoặc được dạy ở trường, theo hiểu biết của tôi).

Nghĩa là:

1. Điểm cân bằng: Có nghĩa là điểm tựa

Cách tốt nhất để hiểu khái niệm nghĩa là nghĩ về nó như là điểm cân bằng trên một thanh đồng nhất. Hãy tưởng tượng một loạt các điểm dữ liệu, chẳng hạn như {1,1,1,3,3,6,7,10}. Nếu mỗi điểm này được đánh dấu trên một thanh đồng nhất và các trọng số bằng nhau được đặt tại mỗi điểm (như hình bên dưới) thì điểm tựa phải được đặt ở mức trung bình của dữ liệu để thanh cân bằng.

nhập mô tả hình ảnh ở đây

Trình diễn trực quan này cũng dẫn đến một giải thích số học. Lý do số học cho điều này là để điểm tựa cân bằng, tổng độ lệch âm so với giá trị trung bình (ở phía bên trái của điểm tựa) phải bằng tổng độ lệch dương so với giá trị trung bình (ở phía bên phải). Do đó, giá trị trung bình đóng vai trò là điểm cân bằng trong phân phối.

Hình ảnh này cho phép hiểu ngay về giá trị trung bình vì nó liên quan đến phân phối các điểm dữ liệu. Tính chất khác của giá trị trung bình trở nên dễ thấy từ phần trình diễn này là thực tế là giá trị trung bình sẽ luôn nằm giữa giá trị cực tiểu và cực đại trong phân phối. Ngoài ra, có thể dễ dàng hiểu được ảnh hưởng của các ngoại lệ - rằng sự hiện diện của các ngoại lệ sẽ làm thay đổi điểm cân bằng, và do đó, tác động đến giá trị trung bình.

2. Giá trị phân phối lại (chia sẻ công bằng)

Một cách thú vị khác để hiểu ý nghĩa là nghĩ về nó như một giá trị phân phối lại . Việc giải thích này đòi hỏi một số hiểu biết về số học đằng sau việc tính giá trị trung bình, nhưng nó sử dụng một chất lượng nhân học - cụ thể là khái niệm phân phối lại xã hội chủ nghĩa - để nắm bắt trực giác khái niệm về giá trị trung bình.

Việc tính toán giá trị trung bình bao gồm tổng hợp tất cả các giá trị trong một phân phối (tập hợp các giá trị) và chia tổng cho số điểm dữ liệu trong phân phối.

x¯=(i=1nxi)/n

Một cách để hiểu cơ sở lý luận đằng sau tính toán này là nghĩ về mỗi điểm dữ liệu là táo (hoặc một số mặt hàng có thể bị nấm khác). Sử dụng ví dụ tương tự như trước đây, chúng tôi có tám người trong mẫu của chúng tôi: {1,1,1,3,3,6,7,10}. Người thứ nhất có một quả táo, người thứ hai có một quả táo, v.v. Bây giờ, nếu một người muốn phân phối lại số lượng táo sao cho đó là công bằng cho mọi người, bạn có thể sử dụng giá trị trung bình của phân phối để thực hiện việc này. Nói cách khác, bạn có thể đưa ra bốn quả táo (nghĩa là giá trị trung bình) cho mọi người để phân phối được công bằng / bằng nhau. Trình diễn này cung cấp một lời giải thích trực quan cho công thức trên: chia tổng phân phối cho số điểm dữ liệu tương đương với phân vùng toàn bộ phân phối cho tất cả các điểm dữ liệu.

3. Ghi nhớ trực quan

Những cách ghi nhớ trực quan sau đây cung cấp việc giải thích ý nghĩa theo một cách duy nhất:

nhập mô tả hình ảnh ở đây

Đây là một bản ghi nhớ cho việc giải thích giá trị cân bằng của giá trị trung bình. Chiều cao của thanh ngang A là giá trị trung bình của độ cao của bốn chữ cái.

nhập mô tả hình ảnh ở đây

Và đây là một cách ghi nhớ khác cho việc giải thích điểm cân bằng của giá trị trung bình. Vị trí của điểm tựa gần như là giá trị trung bình của các vị trí của M, E và nhân đôi N.

Trung bình

Một khi giải thích ý nghĩa là điểm cân bằng trên một thanh được hiểu, trung vị có thể được chứng minh bằng một phần mở rộng của cùng một ý tưởng: điểm cân bằng trên vòng cổ .

Thay thế thanh bằng một chuỗi, nhưng giữ các đánh dấu và trọng lượng dữ liệu. Sau đó, ở hai đầu, gắn một chuỗi thứ hai, dài hơn chuỗi thứ nhất, để tạo thành một vòng [giống như vòng cổ] và treo vòng trên một ròng rọc được bôi trơn tốt.

nhập mô tả hình ảnh ở đây

Giả sử, ban đầu, các trọng số là khác biệt. Cân bằng ròng rọc và vòng lặp khi có cùng số lượng trọng lượng cho mỗi bên. Nói cách khác, vòng lặp 'cân bằng' khi trung vị là điểm thấp nhất.

Lưu ý rằng nếu một trong các trọng số trượt lên trên vòng lặp tạo ra ngoại lệ, thì vòng lặp không di chuyển. Điều này chứng tỏ, về mặt vật lý, nguyên tắc rằng trung vị không bị ảnh hưởng bởi các ngoại lệ.

Chế độ

Chế độ có lẽ là khái niệm dễ hiểu nhất vì nó liên quan đến hoạt động toán học cơ bản nhất: đếm. Thực tế là nó tương đương với điểm dữ liệu xảy ra thường xuyên nhất dẫn đến một từ viết tắt: Từ M xương - thường là O tạo ra D ata E lement.

Chế độ cũng có thể được coi là giá trị tiêu biểu nhất trong một bộ. (Mặc dù, sự hiểu biết sâu sắc hơn về 'điển hình' sẽ dẫn đến giá trị đại diện hoặc giá trị trung bình. Tuy nhiên, nó phù hợp để đánh đồng 'điển hình' với chế độ dựa trên ý nghĩa rất chính xác của từ 'điển hình'.)


Nguồn:

  • The Median là một điểm cân bằng - Lynch, Tạp chí toán học đại học (2009)
  • Làm cho số liệu thống kê trở nên đáng nhớ: Những kỷ niệm và động lực mới - Ít hơn, Giáo dục thống kê, JSM (2011)
  • Về việc Sử dụng Ghi nhớ cho Thống kê Giảng dạy - Ít hơn, Ứng dụng và Thống kê được Hỗ trợ theo Mô hình, 6 (2), 151-160 (2011)
  • Nghĩa là gì? - Watier, Lamontagne và Chartier, Tạp chí Giáo dục Thống kê, Tập 19, Số 2 (2011)
  • Điển hình? Ý tưởng của trẻ em và giáo viên về trung bình - Russell và Mokros, ICOTS 3 (1990) TÀI LIỆU THAM KHẢO: http://www.amstat.org/publications/jse/v22n3/lesser.pdf

Chỉ cần xem qua bài viết này ngày hôm nay đã làm sáng tỏ thêm về điều này: priceonomics.com/how-the-alusive-triumphed-over-the-median
Vishal

1
Một người dùng ẩn danh cũng đề xuất tham chiếu tổng thể sau đây: amstat.org/publications/jse/v22n3/lesser.pdf
gung

3

Tôi phải tự hỏi liệu các tiêu chí của bạn có thể đạt được vì bạn dường như muốn hiệu quả tối đa và sức mạnh giải thích với các vật liệu tối thiểu. Nhưng một ví dụ đơn giản như

1 1 2 2 2 3 3 4 5 6 15

cho phép tính toán ngay lập tức chế độ (2), trung vị (3) và giá trị trung bình (44/11) = 4 và do đó cho thấy chúng có thể khác nhau.

Sau đó, bạn có thể giải thích rằng các ý tưởng về giá trị phổ biến nhất, giá trị ở giữa và giá trị trung bình là khác nhau. Và giới thiệu các biến chứng bởi

  1. thay đổi giá trị để hiển thị chế độ có thể mơ hồ

  2. sử dụng một ví dụ với số lượng giá trị chẵn để giải thích quy ước tính toán trung vị

  3. thay đổi các giá trị ở đuôi để nhấn mạnh những gì xảy ra với giá trị trung bình và tại sao và tại sao điều đó không được mong muốn.

  4. sử dụng các ví dụ đơn giản hơn trong đó hai hoặc ba giá trị trung bình, trung bình, chế độ trùng nhau.

Tôi đã không đề cập đến xu hướng trung tâm trong giảng dạy của mình ngoại trừ việc nói rằng đó là một thuật ngữ trong các văn học khác nhau. Tôi thích nói về mức độ và làm thế nào nó có thể được định lượng. Ngược lại, tôi không nghĩ rằng bất kỳ phân tích dữ liệu nghiêm túc nào đều có thể trừ khi mọi người có cảm giác tối thiểu về độ lệch như bình thường hơn là đối xứng.


Có, việc điều chỉnh các giá trị sẽ thay đổi số liệu thống kê tóm tắt nhưng bản thân nó có nghĩa là "nghĩa là gì"?
Dombey 7/03/2016

1

1
Màu đỏ là gì? Chúng ta không cần phải luôn biết định nghĩa để sử dụng ý tưởng. Một sự hiểu biết đúng đắn về màu đỏ có thể đòi hỏi vật lý, sinh lý học và tâm lý học, nhưng tôi chưa bao giờ cần đến nó. Tôi biết rất nhiều về cách thức hoạt động của giá trị trung bình, nhưng ở một cấp độ cơ bản, định nghĩa của nó chỉ là công thức của nó.
Nick Cox

1
@NickCox rất công bằng và rất đúng. nhưng kinh nghiệm của tôi ở trường đại học vẫn còn khá gần đây và tôi nhớ quá nhiều vấn đề khi tôi mù quáng tính toán một câu trả lời mà không hiểu những gì tôi đã tính toán hoặc tại sao tôi lại làm điều đó
Shadowtalker

1
@ssdecontrol Điều đó không bao giờ ngừng xảy ra hoàn toàn ...
Nick Cox

3

Đây là cách tôi giải thích chúng:

Giá trị trung bình (số học) là điểm đưa toàn bộ dữ liệu vào tài khoản và giải quyết ở đâu đó "ở giữa". Cho họ nghĩ về một đám mây điểm, hoặc một đốm màu, trong không gian: giá trị trung bình là trung tâm khối lượng của đám mây điểm đó.

Trung vị là điểm có "cùng số điểm ở tất cả các phía" (trong đó rõ ràng khái niệm "bên" không được xác định rõ trong 2+ chiều). Điều này đại diện cho một loại "trung gian" khác, và trên thực tế là một loại trực quan hơn trong một số ý nghĩa. Nghĩ về cùng một đốm màu trong không gian, rõ ràng là nếu đốm màu bị lệch thì giá trị trung bình sẽ bị thay đổi. Nhưng sự chậm chạp này có thể đạt được theo một trong hai cách: hoặc bạn thêm nhiều điểm hơn trong một khu vực hoặc bạn tăng sự phân tán các điểm trong khu vực đó. Nếu bạn tăng độ phân tán của các điểm trong một khu vực mà không tăng số điểm, thì trung vị vẫn có cùng số điểm "ở tất cả các phía" và sẽ không dịch chuyển tương xứng với giá trị trung bình.

y=(1,2,3,4,5)y=(1,2,3,4,99)mean(y)=median(y)mean(y)>median(y). Nhưng tôi khuyên bạn nên bắt đầu với lời giải thích "dựa trên blob" hình học / trực quan trước tiên: theo kinh nghiệm của tôi, việc bắt đầu với một trình diễn đồ họa vẫy tay sẽ dễ dàng hơn, sau đó chuyển sang các ví dụ đồ chơi cụ thể. Tôi thấy rằng hầu hết mọi người (bao gồm cả bản thân tôi) không định hướng số một cách tự nhiên và bắt đầu bằng một lời giải thích bằng số là một công thức cho sự nhầm lẫn. Bạn luôn có thể quay lại và dạy các định nghĩa chính xác hơn sau này.

Các chế độ là thời điểm đó, nếu điểm được lấy mẫu ngẫu nhiên từ blob rằng, rất có thể xuất hiện (thừa nhận rằng đây là một kẹo cho dữ liệu liên tục). Điều này có thể, nhưng không phải, nằm gần trung bình hoặc trung bình.

Khi bạn đã giải thích các khái niệm này, sau đó bạn có thể chuyển sang bản demo "tìm kiếm thống kê" hơn:

bản giới thiệu

Đường liền là trung bình. Đường đứt nét là trung tuyến. Đường chấm chấm là chế độ. Giá trị trung bình đại diện cho vị trí của các điểm dữ liệu dọc theo trục x, trong khi trung vị chỉ phản ánh số lượng điểm dữ liệu ở hai bên. Chế độ chỉ là điểm có xác suất lớn nhất, khác với cả giá trị trung bình và trung bình.

Mã R:

set.seed(47730)
y <- rgamma(100, 2, 2)
d <- density(y)
plot(d)
rug(y)
abline(v = mean(y), lty = 1)
abline(v = median(y), lty = 2)
abline(v = d$x[which.max(d$y)], lty = 3)

Giải thích tốt, nhưng thực sự điều này giả định nhiều hơn "kỹ năng số học cơ bản": tư duy hình học, cơ học cơ bản, lấy mẫu ngẫu nhiên, lý thuyết xác suất (bao gồm cả hàm mật độ) đều được gọi ở đây. Đó là một bình luận, không nhằm mục đích chỉ trích hạ gục, vì tôi nghĩ rằng câu hỏi là một trật tự cao.
Nick Cox

@NickCox điểm tốt cho chắc chắn. Nhưng bây giờ tôi đang nghĩ về nó, tôi đứng ra sử dụng chúng, bởi vì tất cả chúng đều có thể được giải thích mà không cần toán học (ví dụ như lời giải thích "nhìn thấy" của ttnphns trong các bình luận về câu hỏi chính), hoặc chúng đã được hiểu trực giác ở một mức độ nào đó bởi rất nhiều người. Mật độ là một chút tầm với, nhưng tôi không nghĩ bạn cần phải đến đó
Shadowtalker

(@ttnphns: gắn thẻ bạn trong trường hợp bạn muốn cân nhắc. Nó sẽ không để tôi gắn thẻ cả hai bạn trong một bình luận)
Shadowtalker

Mật độ không phải là tóm tắt. Hầu hết mọi người nên nhớ lại mật độ từ vật lý và mật độ dân số từ địa lý, hoặc chỉ kiến ​​thức chung.
Nick Cox

@NickCox Tôi nghĩ đó là những gì bạn muốn nói khi nói đến cơ học cơ bản. Và ngoài bản demo mật độ tôi cũng không thấy cách lấy mẫu ngẫu nhiên là cần thiết ở đây. Nếu bất cứ điều gì, tôi tưởng tượng rằng điểm gắn bó sẽ khiến một sinh viên phi kỹ thuật thoải mái với ý tưởng về một đám mây điểm. Có thể lấy cái này để trò chuyện?
Shadowtalker

2

"Trung bình ", " trung bình " và " chế độ " là "xu hướng trung tâm", hay còn gọi là "kết quả rất có thể" trong các lĩnh vực khác nhau. Tất cả họ đều là "cược tốt nhất" trong các "trò chơi" khác nhau.

Xác suất và thống kê là một lĩnh vực, một phần, được xây dựng bởi các con bạc ( liên kết , liên kết ). Khi bạn đi đến các cuộc đua ngựa, hoặc bàn poker, bạn muốn biết một số khoa học giúp bạn giành chiến thắng. Họ cũng vậy, và đã viết về nó, vì vậy bạn không cần phải tự phát minh ra nó.

Trong một cuộc đua ngựa, bạn muốn chọn một người chiến thắng. Bạn không có thông tin trong tương lai, nhưng bạn biết một số thông tin trong quá khứ. Bạn biết mỗi con ngựa chạy nhanh như thế nào trong vài cuộc đua vừa qua. Nếu bạn muốn ước tính tốc độ họ có thể chạy trong cuộc đua tiếp theo của họ, bạn có thể tính toán và so sánh trung bình, còn gọi là trung bình, thời gian đua.

Một xu hướng trung tâm khác là "trung vị" - là trung tâm của một danh sách được sắp xếp. Điều gì sẽ xảy ra nếu tôi đặt một lỗi đánh máy khủng khiếp vào danh sách thời gian đua của bạn và giá trị này dài hơn 1000 lần so với tất cả những người khác. Nó sẽ làm rối tung ước tính của bạn. Bạn có thể không đặt cược vào con ngựa chiến thắng. Làm thế nào để bạn giải quyết điều đó? Bạn có thể tự tìm kiếm một giá trị đó hoặc bạn có thể sử dụng "trung vị".

Điều gì sẽ xảy ra nếu bạn đang chơi bài, như " blackjack ", và bạn đang cố gắng tìm hiểu xem bạn có cần một lá bài khác được cung cấp cho các thẻ trước đó không. Thẻ bạn đang tìm kiếm không phải là 3,14 vì số thẻ là giá trị nguyên. Làm thế nào để bạn tìm ra đặt cược tốt nhất của bạn là gì khi "trung bình" hoặc trung bình không có ý nghĩa? Trong trường hợp này, bạn muốn đặt cược vào "chế độ" - thẻ có khả năng nhất sẽ ra khỏi ngăn xếp đại lý.

Trong cả ba trường hợp, xu hướng trung tâm chỉ là một cách khác để nói "đặt cược tốt nhất".

Nếu bạn muốn giải thích không chỉ xu hướng trung tâm trong cá cược của mình, nghĩa là nếu bạn muốn đặt cược để bạn có thể giảm tác động của thua lỗ trong khi tối đa hóa tiền thắng, thì bạn phải xem xét "xu hướng biến đổi". Những thứ như độ lệch chuẩn, phạm vi liên lượng tử hoặc chế độ thay thế và tần số của chúng đều được sử dụng để giảm thiểu tổn thất tối đa trong khi tối đa hóa khả năng giành chiến thắng.


0

Tôi nghĩ thật hữu ích khi giải thích khái niệm này khi xem xét nhiều phương tiện, trung vị và chế độ. Những giá trị này không tồn tại một mình trong chân không.

Ví dụ, đây là cách tôi sẽ giải thích.

Giả sử bạn có 2 thùng dưa hấu (thùng 1 và 2). Nó được niêm phong để bạn không thể nhìn thấy dưa hấu bên trong và do đó bạn không biết kích thước của chúng. Tuy nhiên, bạn có biết tổng trọng lượng của dưa hấu trong mỗi thùng và mỗi thùng chứa cùng một số dưa hấu. Từ đó, bạn có thể tính trọng lượng trung bình của từng thùng dưa hấu (M1 và M2).

Bây giờ bạn có hai giá trị trung bình khác nhau là M1 và M2, bạn có thể so sánh sơ bộ các nội dung riêng lẻ. Nếu M1> M2, thì một quả dưa hấu được chọn ngẫu nhiên từ thùng 1 có thể nặng hơn một quả được hái từ thùng 2.

Tất nhiên, tôi sẽ thích bình luận về quan điểm này.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.