Công dụng của trung bình (X / Y) so với trung bình (X) / trung bình (Y)


7

Tôi có một bảng có hai cột X và Y. Mỗi hàng biểu thị một thống kê tổng hợp cho một thể hiện. Tôi giới thiệu một cột mới là Z = X / Y, đây là một thông tin quan trọng khác. Bây giờ, tôi muốn trình bày số liệu thống kê tổng thể của các trường hợp (nghĩa là Trung bình).

Ở đây tôi có một mối quan tâm: Tôi nên sử dụng cái nào trong số Nghĩa (X / Y) và Trung bình (X) / Trung bình (Y) để đại diện cho Ý nghĩa của Z? Đơn giản, nó có thể có nghĩa là (X / Y) chỉ vì Z = X / Y.

Tuy nhiên, tôi có hai mối quan tâm:

  • Trung bình (Y) * Trung bình (Z)! = Trung bình (X); nó làm cho mọi người khó tin vào những con số
  • sự khác biệt giữa Trung bình (X / Y) và Trung bình (X) / Trung bình (Y) là đáng kể. Có phải sự khác biệt tự nói lên một cái gì đó có ý nghĩa thống kê?

// Tôi cập nhật trường hợp của tôi.

Bảng giữ hồ sơ người dùng trên một hệ thống. Người dùng có thể tải dữ liệu lên nó.

  • X: số lượt tải lên
  • Y: khối lượng tải lên
  • Z: Y / X; khối lượng mỗi lần tải lên

Những gì tôi muốn làm là mô phỏng một hệ thống như vậy với khối lượng công việc tương tự như thực tế.

Tôi chỉ đơn giản tạo N phiên bản người dùng (N không thể quá lớn) với X '= Trung bình (X) và Z' = Trung bình (Z).

Vì vậy, trong quá trình mô phỏng, mỗi người dùng tải lên dữ liệu có tổng khối lượng: (X ') * (Z').

Sau đó, khi tôi tổng hợp các kết quả mô phỏng, tôi kết thúc bằng: Trung bình (Y ')! = Trung bình (Y).


2
xem '' công cụ ước tính tỷ lệ '', ví dụ: stats.stackexchange.com/questions/164738/iêu

@fcop Hmm, khi nào ước tính tỷ lệ giúp? Khi tôi muốn chạy một mô phỏng với N phiên bản (mỗi trường hợp có các đặc điểm Trung bình (X), Trung bình (Y) và Trung bình (Z)) dựa trên các thống kê? Tôi có thể sử dụng ước tính tỷ lệ thay vì Trung bình (Z) không?
syko

1
Bây giờ tôi đang ở trong tàu, tôi sẽ trả lời vào buổi tối.

1
Bạn đã kiểm tra phân phối âm lượng trên mỗi lần tải lên hoặc tải lên cho mỗi người dùng, không chỉ là giá trị trung bình? Để mô phỏng, có lẽ bạn nên lấy mẫu từ các bản phân phối thay vì chỉ sử dụng các giá trị trung bình, trong bất kỳ sự kiện nào.
EdM

1
Nhiều lời khuyên tốt ở đây nhưng tôi thường thấy rằng một giá trị trung bình là không phù hợp để tóm tắt tỷ lệ như vậy ngay cả khi cả hai đại lượng đều dương. Khoảng được ánh xạ tới và khoảng được ánh xạ tới khá bất đối xứng. Phân phối kết quả thường rất sai lệch, một mình có thể làm cho khó xử hoặc có vấn đề. Biện pháp khắc phục thường là làm việc với logarit của tỷ lệ và / hoặc (tương đương) phương tiện hình học. X<Y0<(X/Y)<1Y>X>(X/Y)>1
Nick Cox

Câu trả lời:


9

Bạn nên trình bày Giá trị trung bình (X / Y) nếu X / Y là thước đo hữu ích và giá trị trung bình là một cách hữu ích để tóm tắt nó. Theo bất bình đẳng của Jensen, chúng ta biết rằng tỷ lệ của giá trị trung bình không bao giờ bằng giá trị trung bình của tỷ lệ ngoại trừ trong một số trường hợp đặc biệt.


Cảm ơn, tôi nghĩ rằng câu trả lời của bạn là chính xác. Tuy nhiên, như tôi đã đề cập như một trong những mối quan tâm của tôi, mọi người (những người sẽ không quan tâm đến sự bất bình đẳng của Jensen) có thể có xu hướng không tin vào những con số. Bởi vì Nghĩa (Y) * Có nghĩa (Z)! = Trung bình (X) mâu thuẫn với trực giác. Điều gì sẽ là lời giải thích tốt nhất về nó?
syko

2
@syko đó là một vấn đề nhận thức luận. Hãy chắc chắn để giải thích cẩn thận rằng chúng là số lượng riêng biệt. Tôi không nghĩ rằng ví dụ của bạn mâu thuẫn với trực giác. Lấy Y = -X, X = -1 hoặc 1 với xác suất bằng nhau.
AdamO

@AdamO Tôi nghĩ rằng bạn đã có một lỗi trong tính toán của bạn; trong trường hợp nàyE(1/Y)>1 kể từ (với xác suất 1) 1/Y>1.
Richard Rast

@RM Ý bạn là gì "giới hạn của hai biến ngẫu nhiên độc lập"?
AdamO

@AdamO Ý tôi là bạn có hai biến độc lập và bạn xây dựng một số lượng vô hạn các cặp từ các mẫu của hai. - Bây giờ tôi nhận ra rằng tôi đã sai về nhận xét của mình, mặc dù vậy, tôi đã bỏ qua sự phức tạp của sự đối ứng. Trong khi Trung bình (X) * Trung bình (1 / Y) = Trung bình (X / Y) cho các biến hoàn toàn độc lập, bạn không thể nói rằng Trung bình (X) / Trung bình (Y) = Trung bình (X / Y), trừ khi bạn có một phân phối hiếm của Y sao cho Trung bình (1 / Y) = 1 / Trung bình (Y). Vì vậy, trực giác của bạn đang giả sử 1. hai biến là độc lập (không tương quan) và 2. Trung bình (1 / Y) = 1 / Trung bình (Y), nói chung không đúng.
RM

4

Z=Y/X có thể có ý nghĩa đối với người dùng cá nhân vì khối lượng trung bình cá nhân của họ trên mỗi lần tải lên, nhưng Mean(Y/X) nhìn tổng thể không có ý nghĩa vì một số người dùng sử dụng hệ thống nhiều hơn những người khác.

Nếu bạn lấy một trung bình có trọng số của Z=Y/X để giải thích cho điều này, các trọng số tự nhiên sẽ là số lần tải lên X và kết quả trung bình có trọng số sẽ trở thành

Weighted Mean(Z)=Sum(X×Y/X)/Sum(X)=Sum(Y)/Sum(X)=Mean(Y)/Mean(X)
đó cũng sẽ là khối lượng trung bình tổng hợp trên mỗi lần tải lên trên toàn hệ thống.

Mối quan tâm của bạn là hợp lý: Có lẽ sẽ tốt hơn nếu sử dụng tùy chọn thứ hai.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.