Khi nào nên sử dụng trung bình vs trung bình


7

Tôi chưa quen với khoa học dữ liệu và số liệu thống kê, vì vậy đây có vẻ như là một câu hỏi dành cho người mới bắt đầu.

Tôi đang làm việc trên một tập dữ liệu mà những người theo dõi Twitter của tôi có được mỗi ngày. Tôi muốn đo mức tăng trưởng trung bình anh ta có được trong một khoảng thời gian, điều mà tôi đã làm bằng cách tìm ra giá trị trung bình của tăng trưởng. Nhưng ai đó đang đề nghị tôi sử dụng trung bình cho việc này.

Bất cứ ai có thể giải thích, trong trường hợp sử dụng chúng ta nên sử dụng trung bình và khi nào nên sử dụng trung bình?

Câu trả lời:


10

Trung bình số học được ký hiệu là x¯

x¯=1ni=1nxi

mỗi nơi xiđại diện cho một quan sát độc đáo. Giá trị trung bình số học đo giá trị trung bình cho một tập hợp số đã cho.

Ngược lại với điều này, trung vị là giá trị rơi trực tiếp vào giữa tập dữ liệu của bạn. Giá trị trung bình đặc biệt hữu ích khi bạn giao dịch với phạm vi rộng hoặc khi có ngoại lệ (số rất cao hoặc thấp so với phần còn lại) sẽ làm lệch trung bình.

Ví dụ, tiền lương thường được thảo luận bằng cách sử dụng trung bình. Điều này là do sự chênh lệch lớn giữa đa số người dân và rất ít người có nhiều tiền (với số ít người có nhiều tiền là người ngoài cuộc). Do đó, nhìn vào cá nhân tỷ lệ phần trăm 50% sẽ cho giá trị đại diện cao hơn giá trị trung bình trong trường hợp này.

Ngoài ra, điểm số thường được mô tả bằng cách sử dụng giá trị trung bình (trung bình) bởi vì hầu hết học sinh phải ở gần mức trung bình và một số ít sẽ ở xa hoặc thấp hơn nhiều.


1
Đó là một câu trả lời tuyệt vời. Vì vậy, nếu tôi nghĩ nó như thế này, tôi có thể vẽ dữ liệu của mình và xem liệu các giá trị đó có liên tục không, thì chúng ta có thể sử dụng giá trị trung bình và nếu chúng được phân cụm nhiều hơn (một số cao và thấp), thì trung bình sẽ tốt hơn, phải không?
Mukul Jain

1
@MukulJain, Có, nó phụ thuộc vào việc phân phối dữ liệu như bạn đã đề cập. Âm mưu luôn là cách để tôi hiểu được dữ liệu của mình. Dễ dàng phát hiện sự bất thường và cảm nhận được sự lây lan của nó.
JahKnows

Tôi nghĩ bạn có thể giải thích điều này tốt hơn bằng cách sử dụng thuật ngữ "ngoại lệ"
MilkyWay90

1
Vì vậy, nếu dữ liệu có nhiều ngoại lệ, sử dụng trung bình có tốt không? Các ngoại lệ có thể được tính bằng cách sử dụng điểm z (<3 hoặc> -3)
Mukul Jain

1
@MukulJain, chính xác và bạn cũng có thể tính toán các ngoại lệ bằng cách sử dụng giá trị p,
JahKnows

13

Nó phụ thuộc vào câu hỏi mà bạn đang cố gắng trả lời. Bạn đang xem tốc độ thay đổi của một chuỗi thời gian và có vẻ như bạn đang cố gắng chỉ ra cách thay đổi theo thời gian. Giá trị trung bình mang đến cho người đọc một cái nhìn sâu sắc trực quan: họ có thể ước tính số lượng người theo dõi một cách tầm thường vào bất kỳ ngày nàod ngày kể từ khi bắt đầu bằng cách nhân với tỷ lệ thay đổi trung bình.

Nhược điểm của số liệu đơn này là nó không minh họa một điều rất phổ biến trong chuỗi như thế này: tốc độ thay đổi không cố định theo thời gian. Một số liệu hợp lý để cung cấp cho người đọc một ý tưởng về việc liệu tốc độ thay đổi có tĩnh hay không đang mang lại cho họ trung vị. Nếu họ biết mức tối thiểu của chuỗi (có lẽ là 0 trong trường hợp của bạn), giá trị hiện tại, giá trị trung bình và trung bình, trong nhiều trường hợp, họ có thể nhận được "cảm giác" gần với mức tăng tuyến tính.

Có một câu chuyện cảnh báo lớn trong bộ tứ của Anscombe - bốn chuỗi thời gian hoàn toàn khác nhau, tất cả đều có chung một số biện pháp thống kê quan trọng. Về cơ bản nó luôn trở lại với những gì bạn đang cố gắng trả lời. Bạn đang cố gắng tìm người dùng có khả năng trở nên nổi bật sớm? Người dùng đang dần dần tích lũy người theo dõi hàng năm? Một bản nhạc tuyệt vời? Botnet?

Như bạn có thể đoán, điều này có nghĩa là không thể gọi trung bình hoặc trung bình là "tốt hơn" so với cái khác.


2

Nói một cách đơn giản, nếu dữ liệu của bạn bị hỏng với tiếng ồn hoặc nói sai những người theo dõi twitter như trong trường hợp của bạn, thì có nghĩa là một số liệu có thể gây bất lợi vì mô hình sẽ hoạt động kém. Trong trường hợp này, nếu bạn lấy giá trị trung bình của các giá trị, nó sẽ xử lý các ngoại lệ trong dữ liệu. Hy vọng nó giúp


1

Thông thường trung bình là mạnh mẽ hơn đến giá trị cực kỳ có nghĩa. Hãy cố gắng nghĩ rằng đó là một nhiệm vụ tối thiểu hóa. Trung vị tương ứng với mất mát tuyệt đối trong khi trung bình tương ứng với mất vuông.


1

Tôi thấy mình giải thích điều này rất nhiều và ví dụ tôi sử dụng là phiên bản Bill Gates nổi tiếng. Bill Gates là trong lớp khoa học dữ liệu của bạn. Người hướng dẫn của bạn hỏi bạn: thu nhập trung bình hoặc giá trị ròng của lớp này là bao nhiêu? Bill Gates ngượng ngùng bắt buộc và cho bạn biết thu nhập của anh ta là bao nhiêu. Bây giờ khi bạn nói thu nhập trung bình của nhóm của bạn là một tỷ đô la - đúng về mặt kỹ thuật nhưng không mô tả thực tế - rằng Bill Gates là một người vượt trội mọi thứ.

Vì vậy, bạn xếp hàng tất cả những người trong nhóm của bạn theo thứ tự tăng dần hoặc giảm dần - bất cứ điều gì mà người ở giữa đang làm - đó là trung bình của bạn. Trong ví dụ này, tất cả mọi người trừ Bill Gates có khả năng sẽ nhổ khoảng cách của trung vị đó và Bill Gates sẽ là người duy nhất tạo ra bất cứ điều gì gần với ý nghĩa.

Bây giờ nói bạn thân Bill Gates đang thuê một người quản lý tiền. Dựa trên lợi nhuận họ sản xuất cho đến nay. Anh ta nên nhìn vào lợi nhuận trung bình của họ trong khoảng thời gian 10 năm hoặc lợi nhuận trung bình của họ hoặc kết hợp cả hai? Họ đã làm tốt hơn thị trường mỗi năm? Mấy năm nay? Làm thế nào để yếu tố kích thước danh mục đầu tư trong? Trong trường hợp những người theo dõi Twitter, Obama sẽ có một sự tăng trưởng khác so với những người có số người theo dõi 500K-1MM. Như @ l0b0 ám chỉ trong câu trả lời xuất sắc của anh ấy - tất cả phụ thuộc. Bạn đang đo lường sự tăng trưởng của người theo dõi hay tốc độ thay đổi của sự tăng trưởng của người theo dõi và câu hỏi bạn đang cố gắng trả lời là gì, chiến lược / sản phẩm bạn đang cố gắng phát triển - theo đó bạn chọn trung bình hay trung bình. Lấy trung bình và trung bình luôn là phần dễ dàng. Luôn luôn tốt hơn là không bao giờ có trung bình 2,1 trẻ em. Có một số lượng lớn trẻ em. Nhưng bạn có thể nói gì về tỷ lệ tăng dân số nếu số trẻ em trung bình là 2,1 và trung bình là 1 hoặc 2? Hoặc trung vị là 3 hoặc nhiều hơn? Là tăng trưởng đang tăng tốc hay giảm tốc? Chế độ đang làm gì? Tính toán tất cả các điều cơ bản trước - và sau đó hỏi lý do tại sao bạn sử dụng trung bình so với trung bình.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.