Nghịch lý giá trị trung bình - Cái này được gọi là gì?

22

Tôi có một bộ dữ liệu. Nói quan sát và biến: $10$ $3$

obs  A   B   C
1    0   0   1
2    0   1   0
3    1   0   1
4    1   1   0
5    1   0   1
6    1   0   0
7    1   1   0
8    0   0   1
9    0   1   1
10   0   1   1

Nói rằng có khách hàng đã mua ( ) hoặc không ( ) trong mỗi danh mục . Có cái ở đó vì vậy trung bình khách hàng này mua vào loại sản phẩm. $10$ 10A, B, C $16$ $10$ $1.6$

Lưu ý khách hàng có thể mua nhiều hơn một trong A, B và C.

Nếu tôi chỉ nhìn vào những người mua A, có khách hàng đã mua vào loại sản phẩm, thì trung bình là . $5$ $9$ $1.8$

Blà một lần nữa, hoặc . $9/5$ $1.8$

Clà $10/6 = 1.67.$

Tất cả đều trên $1.6.$

mà có vẻ lạ. Tôi hiểu điều đó nhưng cần giải thích điều này để tiếp thị vào tuần tới và vì vậy cần sự giúp đỡ!

Cái này gọi là gì?

Tôi biết đó không phải là nghịch lý của Simpson. Đối với tôi, nó cảm thấy tương tự logic với vấn đề Monty Hall và xác suất có điều kiện.

proportion descriptive-statistics paradox

— James Adams
nguồn

2

Cá nhân, tôi không biết bạn đang nói về cái gì. Tại sao không tạo một bảng dự phòng của As, Bs và Cs để kiểm tra các mẫu mua chéo?

— Mike Hunter

3

Chúng tôi có các báo cáo nói rằng "Khách hàng mua C có giá trị cao hơn mức trung bình - 1,67 so với 1,6" Điều đó đúng, nhưng A và B cũng có giá trị cao hơn mức trung bình. Câu hỏi không thể tránh khỏi sẽ xuất hiện "Làm thế nào tất cả khách hàng có thể có giá trị cao hơn mức trung bình"?

— James Adams

3

Tôi nghĩ câu đố của anh ấy là bề ngoài trông giống như Hồ Wobegon nơi mọi người đều ở trên mức trung bình: P Gọi là số lượng danh mục / mặt hàng mà khách hàng đã mua. Đặt , và là các chỉ số để mua trong loại A, B và C. , và trong khi

X

$X$

A

$A$

B

$B$

C

$C$

E [X ∣ A] = 1.8

$\operatorname{E}[X\mid A] = 1.8$

E [X ∣ B] = 1.8

$\operatorname{E}[X\mid B] = 1.8$

E [X ∣ C] = 1.67

$\operatorname{E}[X\mid C] = 1.67$

E [X] = 1.6

$\operatorname{E}[X] = 1.6$

— Matthew Gunn

12

Bạn có thể muốn nghĩ về các bộ bổ sung và sơ đồ Venn. Các tập hợp "khách hàng mua A" và "khách hàng không mua A" không chồng chéo. Nhưng các bộ bạn liệt kê trong câu hỏi của bạn chồng chéo. Bạn có thể tính trung bình tổng thể dưới dạng trung bình (có trọng số) của trung bình tập hợp con chỉ khi các tập hợp con tạo thành một phân vùng .

— GeoMatt22

4

Đây có phải là tương tự lỏng lẻo với nghịch lý ảo tưởng đa số ? Theo cùng một cách mà bất kỳ cá nhân nào có khả năng được kết nối với một siêu mạng, bất kỳ danh mục mua hàng nào cũng có khả năng chứa một siêu người mua? (Tôi đang gọi một siêu mạng là người kết nối với nhiều người và siêu người mua, người mua nhiều mặt hàng khác nhau)

— Matthew Gunn

28

Trung bình của mọi danh mục con có thể cao hơn mức trung bình chung nếu các danh mục con trùng lặp với các khách hàng lớn hơn.

Ví dụ đơn giản để có được trực giác:

Đặt là một chỉ số cho dù một cá nhân đã mua một mặt hàng trong loại A. $A$
Đặt là chỉ số cho dù một cá nhân đã mua một mặt hàng trong loại B. $B$
Đặt là số lượng vật phẩm đã mua. $X = A + B$

\begin{array}{ccc} Người & Một & B \\ tôi & 1 & 0 \\ tôi tôi & 0 & 1 \\ tôi tôi tôi & 1 & 1 \end{array}

$\begin{array}{ccc} \text{Person} & A & B \\ i & 1 & 0 \\ ii & 0 & 1 \\ iii & 1 & 1 \end{array}$

Tập hợp các cá nhân trong đó đúng chồng lấp tập hợp các cá nhân trong đó đúng. Họ KHÔNG phân biệt bộ. $A$ $B$

Sau đó trong khi và $\operatorname{E}[X] \approx 1.33$ $\operatorname{E}[X \mid A] = 1.5$ $\operatorname{E}[X \mid B] = 1.5$

Tuyên bố đó là đúng là:

P (Một) E [X | Một] + P (B) E [X | B] - P (Một B) E [X | Một B] = = E [X]

$P(A)\operatorname{E}[X\mid A] + P(B)\operatorname{E}[X\mid B] - P(AB)\operatorname{E}[X\mid AB] = \operatorname{E}[X]$

\frac{2}{3} 1,5 + \frac{2}{3} 1,5 - \frac{1}{3} 2 = = 1.3333

$\frac{2}{3}1.5 + \frac{2}{3}1.5 - \frac{1}{3}2 = 1.3333$

Bạn không thể đơn giản tính vì đặt và trùng nhau, biểu thức nhân đôi số người ai mua cả mặt hàng và ! $P(A)\operatorname{E}[X\mid A] + P(B)\operatorname{E}[X\mid B]$ $A$ $B$ $A$ $B$

Tên cho ảo ảnh / nghịch lý?

Tôi cho rằng nó liên quan đến nghịch lý ảo tưởng đa số trong các mạng xã hội.

Bạn có thể có một anh chàng độc thân, người kết nối tất cả mọi người. Người đó có thể là một trong một triệu người, nhưng anh ta sẽ là một trong những người bạn của mỗi người . $k$

Tương tự, bạn có 1 trên 3 ở đây mua cả hai loại A và B. Nhưng trong cả hai loại A hoặc B, 1 trong số 2 người mua là siêu người mua.

Trường hợp cực đoan:

Hãy tạo ra bộ vé số. Mỗi bộ bao gồm hai vé: một vé thua và vé trúng giải độc đắc. $n$ $S_i$ $i$

Tiền thắng trung bình trong mỗi bộ sau đó là trong đó là giải độc đắc. Trung bình của mỗi danh mục là CÁCH trên mức thắng trung bình trên mỗi vé tổng thể . $S_i$ $\frac{J}{2}$ $J$ $\frac{J}{n+1}$

Đó là khái niệm năng động tương tự như trường hợp bán hàng. Mỗi bộ bao gồm vé jackpot theo cùng một cách mà mọi loại A, B hoặc C bao gồm những người mua nặng. $S_i$

Điểm mấu chốt của tôi sẽ là trực giác dựa trên các tập hợp rời rạc , một phân vùng đầy đủ của không gian mẫu không chuyển sang một loạt các tập hợp chồng chéo . Nếu bạn có điều kiện về các danh mục chồng chéo, mọi danh mục có thể ở trên mức trung bình.

Nếu bạn phân vùng không gian mẫu và điều kiện trên các tập hợp rời rạc, thì các danh mục phải tính trung bình theo giá trị trung bình chung, nhưng điều đó không đúng với các tập hợp chồng chéo.

— Matthew Gunn
nguồn

3

Cảm ơn! Tôi nghĩ rằng việc tính hai lần là chìa khóa để giải thích. Tôi không nghĩ rằng đây nhất thiết là kết quả của một vài giá trị cực đoan. Tập dữ liệu mẫu của tôi ở trên khá trần tục và hiệu ứng "tất cả các nhóm trên trung bình" vẫn xảy ra. Tôi đoán nó sẽ xảy ra trong hầu hết các trường hợp. Chỉ tự hỏi nếu nó có một tên hoặc một ví dụ trước.

— James Adams

Giải thích này sẽ không được giữ nếu dữ liệu @JamesAdams đang phân tích bị sai sót. Tôi đang tranh luận rằng nó là. Bạn không thể có một tập hợp các loại A, B và C loại trừ lẫn nhau hoàn toàn, trong đó trung bình của nhóm đều cao hơn mức trung bình của cả 3 nhóm mà không vi phạm một số giả định cơ bản về phân tích dữ liệu. Trong trường hợp của bạn, rất có thể mẫu số cho tổng trung bình khác nhau (ví dụ: chứa nhiều người trả lời hơn) so với mẫu được sử dụng để ước tính phương tiện cho A, B và C.

— Mike Hunter

2

@DJohnson Tất nhiên bạn đúng nếu đặt phân vùng A, B và C không gian mẫu. Việc tôi đọc câu hỏi và "dữ liệu" được cung cấp (bất kể đó là gì) là A, B và C là các tập hợp chồng chéo . Nếu A, B và C trùng nhau, thì trung bình của nhóm có thể cao hơn mức trung bình chung (đó là điểm của câu trả lời của tôi; các tập hợp chồng chéo lên các khách hàng lớn nhất!). Không có gì OP nói là không nhất quán trong nội bộ. Tuy nhiên, trình phát hiện "chúng tôi đang thông qua dữ liệu BS" của bạn có thể tốt hơn trình phát hiện của tôi và tôi đồng ý rằng việc đặt câu hỏi quan trọng về tính hợp lệ của dữ liệu / số luôn luôn quan trọng.

— Matthew Gunn

Vâng, họ là bộ chồng chéo. Bộ dữ liệu của tôi là hàng triệu khách hàng và 12 danh mục. Khi tôi thấy trung bình của tôi đều cao hơn mức trung bình tổng thể, tôi nghĩ rằng nó trông kỳ lạ nhưng có thể giải thích được. Tôi tập hợp các ví dụ gồm 10 obs và 3 loại để xem nó. Tôi chỉ phân tán 1 và 0 ở đây và nó xuất hiện như nhau. Tôi nghi ngờ điều này xảy ra với hầu hết các bộ dữ liệu trong đó loại trung bình này được tính toán. @Djohnson ví dụ của tôi ở trên rằng tôi đang sử dụng 10 làm mẫu số cho trung bình tổng thể, 5 cho As, 5 cho Bs, 6 cho Cs. Bạn có thể cho tôi biết những gì tôi đang vi phạm trong ví dụ này?

— James Adams

'10' thể hiện điều gì? Mạng của người trả lời trên 3 loại? Điều gì xảy ra với mức trung bình nếu bạn sử dụng cùng một mẫu số cho tất cả? Nó sẽ trả về trung bình dao động xung quanh trung bình lớn.

— Mike Hunter

10

Tôi sẽ gọi đây là nghịch lý quy mô gia đình hoặc một cái gì đó tương tự

Giả sử, trong một ví dụ đơn giản, mọi người đều có một đối tác và số trẻ em phân phối Poisson với tham số : $2$

Số trẻ em trung bình trên mỗi người sẽ là $2$
Số trẻ em trung bình trên mỗi người có con sẽ là $\frac{2}{1-e^{-2}} \approx 2.313$
Kích thước nhóm anh chị em trung bình cho mỗi cá nhân (tính anh chị em của họ và chính họ) sẽ là $3$

Các số liệu khảo sát và nhân khẩu học thực tế tạo ra các số khác nhau nhưng các mẫu tương tự

Nghịch lý rõ ràng là quy mô trung bình của các nhóm anh chị em của cá nhân lớn hơn số trẻ em trung bình của mỗi gia đình; với sự năng động của dân số ổn định, mọi người có xu hướng sinh con ít hơn so với cha mẹ của họ

Giải thích là liệu trung bình đang được chiếm bởi cha mẹ và gia đình hoặc hơn anh chị em: có những trọng số khác nhau được áp dụng cho các gia đình lớn. Trong ví dụ của bạn, có một sự khác biệt giữa trọng số của các cá nhân hoặc bởi các giao dịch mua; mức trung bình có điều kiện của bạn được đẩy lên bởi thực tế bạn có điều kiện về một giao dịch mua cụ thể được thực hiện.

— Henry
nguồn

8

Các câu trả lời khác đang xem xét lại những gì đang xảy ra. Giả sử có một sản phẩm và hai khách hàng. Một người đã mua sản phẩm (một lần) và một người thì không. Số lượng sản phẩm trung bình được mua là 0,5, nhưng nếu bạn chỉ nhìn vào khách hàng đã mua sản phẩm, trung bình tăng lên 1.

Điều này dường như không phải là một nghịch lý hay phản trực giác đối với tôi; Điều kiện mua một sản phẩm thường sẽ tăng số lượng trung bình của sản phẩm đã mua.

— Pimarenko
nguồn

Chính xác. Giả sử các giao dịch mua trong mỗi 3 danh mục không tương quan nhiều, việc bạn làm là tính trung bình sau khi tăng tỷ lệ mua lên 100% ở một trong các danh mục. Có lẽ sẽ có nhiều thông tin hơn để so sánh, ví dụ. tỷ lệ mua trung bình trong các loại B và C: a) trong số tất cả các khách hàng (11/20) b) trong số những người đã mua A (4/10). Tôi phụ thuộc vào những gì bạn đang cố gắng thể hiện / tìm thấy tôi đoán.

— konrad

2

Đây có phải không chỉ là sự nhầm lẫn "trung bình của trung bình" (ví dụ như câu hỏi stackexchange trước đây ) được ngụy trang? Sự cám dỗ của bạn dường như là trung bình mẫu phụ sẽ kết thúc trung bình với mức trung bình dân số, nhưng điều này sẽ hiếm khi xảy ra.

Trong "mức trung bình trung bình" cổ điển, một người nào đó tìm thấy trung bình của N tập hợp con loại trừ lẫn nhau, và sau đó rất bối rối rằng những giá trị này không trung bình với mức trung bình dân số. Cách duy nhất để tính trung bình trung bình này là nếu các tập hợp không chồng lấp của bạn có cùng kích thước. Nếu không, bạn cần phải lấy một trung bình có trọng số.

Vấn đề của bạn được thực hiện phức tạp hơn mức trung bình truyền thống trung bình nhầm lẫn này bằng cách có các tập hợp con chồng chéo, nhưng đối với tôi, đây chỉ là một lỗi kinh điển với một sự thay đổi. Với các tập hợp con chồng chéo, việc kết thúc với trung bình mẫu phụ trung bình đến trung bình dân số thậm chí còn khó hơn.

Trong ví dụ của bạn, vì người dùng xuất hiện trong nhiều mẫu phụ (và do đó đã mua nhiều thứ) sẽ tăng các mức trung bình này. Về cơ bản, bạn đang đếm từng người chi tiêu lớn nhiều lần, trong khi những người thanh đạm chỉ mua một mặt hàng chỉ gặp một lần, vì vậy bạn thiên vị với các giá trị lớn hơn. Đây là lý do tại sao các tập hợp con cụ thể của bạn có giá trị trên trung bình, nhưng tôi nghĩ đây vẫn chỉ là vấn đề "trung bình của trung bình".

Bạn cũng có thể xây dựng tất cả các loại tập hợp con khác từ dữ liệu của mình trong đó mức trung bình của mẫu phụ đảm nhận các giá trị khác nhau. Ví dụ: chúng ta hãy lấy các tập con tương tự như tập con của bạn. Nếu bạn lấy tập hợp con của những người không mua A, bạn sẽ nhận được trung bình 7/5 = 1,4 mặt hàng. Với tập hợp con không mua B, trung bình bạn cũng nhận được 1,4 mặt hàng. Những người không mua C, trung bình mua 1,5 mặt hàng. Đây là tất cả dưới mức trung bình dân số 1,6 mặt hàng / khách hàng. Đưa ra tập dữ liệu đúng và bộ sưu tập các tập hợp con đúng, bạn có thể kết thúc với các tập hợp con chồng chéo có trung bình trung bình đến trung bình dân số; tuy nhiên, điều này sẽ không phổ biến trong các ứng dụng thông thường.

Có phải chỉ có tôi, hoặc từ trung bình bây giờ có vẻ kỳ lạ sau nhiều lần lặp lại ... Hy vọng câu trả lời của tôi là hữu ích, và xin lỗi nếu tôi phá hỏng từ trung bình cho bạn!

— chuông
nguồn

Cảm ơn! Nhận xét về các phân vùng cùng kích thước không chồng chéo làm rõ nó trong tâm trí của tôi. Tôi đã hy vọng khi đến trình bày những số liệu này tôi có thể nói điều gì đó như "Tất cả các mức trung bình của danh mục đều cao hơn mức trung bình chung, nhưng đó là nghịch lý Blahblah". Giống như khi bạn nói "Nghịch lý của Simpson!, Tình dục của Ivy League!" và sau đó chạy ra khỏi phòng. (Tất cả các bạn làm điều đó đôi khi phải không?) Rất muốn nói với họ "Đó là vì đây là các tập hợp con có kích thước khác nhau" nhưng đừng nghĩ rằng điều đó sẽ hạ cánh!

— James Adams

1

Haha, đủ công bằng. Tôi đã không hoàn toàn có được bối cảnh trước đây - Tôi là một sinh viên tốt nghiệp vật lý thiên văn, vì vậy tôi không quen thuộc lắm với bối cảnh. Bạn có thể nói điều gì đó ngắn gọn, với tác động của "Tất cả các trung bình tập hợp con cao hơn mức trung bình tổng thể bởi vì cách chúng tạo ra các tập hợp con thiên vị chúng ta đối với các giá trị lớn hơn." Tôi sẽ không đề cập đến mức trung bình của tên trung bình vì nó không được biết đến nhiều và trường hợp của bạn giống như một sự khái quát cho nó. Tôi cũng sẽ cố gắng tìm một từ đồng nghĩa để thay thế các danh mục từ - nói chung tôi thấy từ này có nghĩa là các tập hợp con loại trừ lẫn nhau.

— bấm chuông

Semantic Satiation là một hiện tượng tâm lý trong đó sự lặp lại làm cho một từ hoặc cụm từ tạm thời mất đi ý nghĩa đối với người nghe, người sau đó coi bài phát biểu là những âm thanh vô nghĩa lặp đi lặp lại.

— Patrick

1

Vì vấn đề là " Tôi hiểu nhưng cần phải giải thích điều này với tiếp thị ", OP có vẻ quan tâm đến cách một giáo dân sẽ diễn giải những sự thật này - (không phải là sự thật là đúng hay làm thế nào để chứng minh rằng chúng là như vậy). Câu hỏi tham khảo 10 loại sản phẩm, (AJ), vậy ví dụ này thế nào:

[trong cuộc họp với nhóm tiếp thị]
OP : Vì vậy, như bạn có thể thấy ở đây , những khách hàng mua A, B và C, đều có giá trị cao hơn mức trung bình.
Giáo dân : Đợi đã?! Làm thế nào mọi người có thể cao hơn mức trung bình?
OP : Câu hỏi hay. Slide này tập trung vào các khách hàng của A, B và C, nhưng có những nhóm khác, hiệu suất thấp, không được hiển thị. Ví dụ: khách hàng của các loại D và G mỗi loại có giá trị khoảng một nửa trung bình.

Điều này sẽ dập tắt bs nội bộ của mọi người - báo động về "mọi thứ đều trên mức trung bình".

— Patrick
nguồn

Đây không phải là cách để trả lời một câu hỏi.

— Michael R. Chernick

Câu hỏi của anh đã được trả lời, nhưng không ai giải quyết vấn đề của anh.

— Patrick

Nhận xét của tôi chỉ liên quan đến câu trả lời của Patrick.

— Michael R. Chernick

Tôi không thấy bất kỳ quy tắc nào chống lại các kiểu trả lời khác nhau. Báo cáo và thảo luận (thực tế hoặc tưởng tượng) là một cách suy nghĩ có thời gian thông qua các vấn đề từ Socrates trở đi (và trước tất cả những gì tôi biết).

— Nick Cox

Nhưng lời giải thích đó thực tế là sai. Ngay cả khi không có thêm danh mục (DJ), quan sát vẫn đúng: trung bình của các tập con chồng chéo đều có thể cao hơn mức trung bình của toàn bộ tập hợp, ngay cả khi các tập con bao trùm cả tập hợp.

— isarandi

0

Bỏ qua các câu trả lời khác ở đây. Đây thực sự không phải là một nghịch lý. Vấn đề thực tế trong tầm tay đây mà tất cả mọi người dường như bị bỏ qua là bạn đang nhầm mà khả năng bạn đang thực sự nhìn vào. Trên thực tế, có hai mức trung bình và thống kê hoàn toàn khác nhau đang diễn ra ở đây, cả hai đều có cách sử dụng và diễn giải riêng trong ví dụ đề xuất của bạn (tiếp thị)!

Trước hết là số lượng sản phẩm trung bình được mua cho mỗi khách hàng. Vì vậy, trung bình, một khách hàng mua 1,6 mặt hàng. Tất nhiên, một khách hàng không thể trừ 0,6 sản phẩm (giả sử đó không phải là gạo hoặc ngũ cốc có số đo liên tục với nó).

Thứ hai, có số lượng khách hàng trung bình mua một sản phẩm cụ thể. Nghe có vẻ lạ đúng không? Vì vậy, trung bình một sản phẩm có 5.33333333 ... khách hàng mua nó. Điều này là khác nhau tuy nhiên. Những gì chúng tôi mô tả ở đây không phải là số lượng sản phẩm được mua (chỉ có ba trong số đó!) Mà là số người thực sự mua sản phẩm nói trên.

Hãy nghĩ về hai giá trị theo cách này: hai giá trị này sẽ đại diện cho điều gì nếu chỉ có một khách hàng hoặc chỉ có một sản phẩm? Xét cho cùng, trung bình của một điểm dữ liệu duy nhất chỉ là điểm dữ liệu đã cho.

Hoặc tốt hơn nữa, hãy nghĩ về biểu đồ như thể nó đang cho bạn số tiền đô la đã bỏ ra để mua sản phẩm. Rõ ràng số tiền trung bình được chi tiêu bởi một khách hàng cá nhân sẽ ít hơn nhiều so với số tiền kiếm được trung bình bởi một sản phẩm được cung cấp bởi một tập đoàn lớn (hoặc thậm chí chỉ là một doanh nghiệp nhỏ). Tôi chắc rằng bạn có thể nghĩ ra những cách tốt để sử dụng cả hai giá trị khi thảo luận về sự thịnh vượng của công ty.

Khi bạn đi giải thích điều này với nhân viên tiếp thị, hãy giải thích cho họ giống như tôi đã nói. Đó không phải là một nghịch lý. Đó chỉ là một thống kê hoàn toàn khác. Vấn đề duy nhất ở đây là nhận thấy rằng trên thực tế, có hai cách khác nhau để đọc biểu đồ (nghĩa là số người mua trên mỗi sản phẩm so với số sản phẩm được mua cho mỗi người).

tl; dr điều đầu tiên bạn mô tả là số tiền trung bình mà một khách hàng cá nhân sẵn sàng bỏ ra để mua sản phẩm của bạn. Thứ hai là nhu cầu trung bình cho một sản phẩm nhất định của công chúng. Tôi chắc chắn bạn có thể thấy bây giờ tại sao cả hai chắc chắn không giống nhau. So sánh chúng như vậy sẽ chỉ cung cấp cho bạn thông tin rác.

CHỈNH SỬA

Nó sẽ xuất hiện câu hỏi thực sự là hỏi về số tiền trung bình được chi tiêu bởi các khách hàng mua một số sản phẩm a, b hoặc c. Ổn thỏa. Đây thực sự chỉ là một lỗi trong tính toán. Tôi sẽ không gọi đây là một nghịch lý. Nó thực sự chỉ là một flub tinh tế.

Nhìn vào cột của bạn. Có những người được chia sẻ giữa các cột. Giả sử bạn đã làm một trung bình có trọng số phù hợp . Bạn vẫn đang thêm người hai lần. Điều này có nghĩa là trung bình sẽ chứa thêm người có giá trị lớn hơn hoặc bằng 2. Bây giờ mức trung bình của bạn là bao nhiêu? Đó là 1.6! Về bản chất, trung bình của bạn trông như thế này:

$\frac {\sum_{i = 0}^{n} valueOfPerson_i*valueOfPerson_i} {n}$

Đó chắc chắn không phải là công thức đúng. Đó là một mức trung bình có trọng số mặc dù giả sử loại trừ lẫn nhau đó là cách bạn sẽ điều chỉnh để có được mức trung bình thực trong tình huống của mình.

$\frac {\sum_{i = 0}^{n} numberOfPeopleBuying_i*averageSpentByPersonBuying_i} {n}$

Dù bằng cách nào, bạn sẽ nhận được một trung bình lộn xộn. Một sai lầm là bỏ qua sự cần thiết phải có trung bình có trọng số vì một loại có "trọng số" lớn hơn về mức trung bình. Nó giống như mật độ. Một giá trị dày đặc hơn ở người đại diện. Vấn đề khác là trùng lặp thêm sẽ làm biến dạng trung bình. Tôi không gọi một trong hai "nghịch lý" này. Khi tôi nhìn thấy những gì bạn đang làm, có vẻ như rõ ràng với tôi tại sao điều đó sẽ không hiệu quả. Trung bình có trọng số có phần tự giải thích cho nhu cầu của nó và tôi nghĩ bây giờ bạn thấy rằng bạn đã thêm các giá trị nhiều lần ... không thể hoạt động. Về cơ bản, bạn lấy trung bình của bình phương các giá trị của chúng.

— Vịt lớn
nguồn

Tôi không nghĩ đây là trường hợp. Tôi không quan tâm ở đây có bao nhiêu người mua một sản phẩm cụ thể. Tôi quan tâm đến tổng số sản phẩm mà một khách hàng đã mua cho rằng họ đã mua A.

— James Adams

@JamesAdams Đủ công bằng. Trong trường hợp đó, vấn đề thậm chí còn tầm thường hơn. Bạn chỉ đang lấy trung bình một tập hợp con của mẫu của bạn. Về lý thuyết nếu bạn làm tương tự với B và C, trung bình cuối cùng sẽ không phải là trung bình thực tế. Tuy nhiên, điều này chỉ là do các mẫu không đồng đều. Đó là tất cả. Trong thực tế, tôi thấy không có lý do tại sao điều đó sẽ rõ ràng với một người. Thực sự có một giải pháp để sửa mức trung bình để giúp bạn có mức trung bình phù hợp. Nó được gọi là trung bình có trọng số và về cơ bản, bạn sẽ "cân" từng phạm vi bảo hiểm với số người trong nhóm đó. Có lý?

— Vịt lớn

@JamesAdams và tôi biết bạn không quan tâm đến nó. Bạn là toán học mà bạn tuyên bố đã hình thành một nghịch lý sử dụng mức trung bình đó để thử và tính số lượng sản phẩm trung bình trên mỗi người. Đó là lý do tại sao trong câu trả lời này, tôi nhấn mạnh rằng có một trung bình thứ hai cho một thống kê khác và "sai lầm" của bạn là cố gắng biến nó thành một mức trung bình hoàn toàn khác.

— Vịt lớn