Tính toán phân phối từ min, trung bình và tối đa


10

Giả sử tôi có tối thiểu, trung bình và tối đa của một số tập dữ liệu, giả sử, 10, 20 và 25. Có cách nào để:

  1. tạo phân phối từ những dữ liệu này và

  2. biết bao nhiêu phần trăm dân số có thể nằm trên hoặc dưới trung bình

Biên tập:

Theo đề nghị của Glen, giả sử chúng ta có cỡ mẫu là 200.


(1) là dễ dàng, bởi vì có nhiều giải pháp. (2) được thực hiện tốt nhất trong bối cảnh của một số giả định về hình dạng phân phối, vì nếu không, tất cả những gì bạn có thể có được là giới hạn toán học.
whuber

3
Cho đến nay, bạn đang được đưa vào bình luận và trả lời theo nghĩa đen, nhưng một sự thận trọng cần thiết (ngầm, tôi nghĩ, trong nhận xét của @ whuber) là có rất nhiều phân phối tương thích với thông tin đó mà bạn không nên suy luận rằng bạn có đủ thông tin để làm điều này tốt hoặc đáng tin cậy. Đặc biệt, nếu bạn thậm chí không biết kích thước mẫu, bạn thậm chí không thể nghĩ nhiều về sự không chắc chắn.
Nick Cox

Khi bạn hỏi về tỷ lệ dân số "nằm trên hoặc dưới trung bình" ... bạn có hỏi tương đối với trung bình mẫu hoặc trung bình dân số ở đó không? Chúng ta đang nói về các biến liên tục hoặc rời rạc? Chúng ta có biết cỡ mẫu không?
Glen_b -Reinstate Monica

Câu trả lời:


10

Tôi có tối thiểu, trung bình và tối đa của một số tập dữ liệu, giả sử, 10, 20 và 25. Có cách nào để:

tạo phân phối từ những dữ liệu này và

Có vô số phân phối có thể phù hợp với số lượng mẫu đó.

biết bao nhiêu phần trăm dân số có thể nằm trên hoặc dưới trung bình

Trong trường hợp không có một số giả định không chính đáng, không nói chung - ít nhất là không có nhiều ý nghĩa rằng nó sẽ có ý nghĩa. Kết quả sẽ phụ thuộc phần lớn vào các giả định của bạn (không có nhiều thông tin trong các giá trị, mặc dù một số sắp xếp cụ thể không truyền đạt một số thông tin hữu ích - xem bên dưới).

Không khó để đưa ra các tình huống trong đó các câu trả lời cho câu hỏi tỷ lệ có thể rất khác nhau. Khi có những câu trả lời rất khác nhau có thể phù hợp với thông tin, làm thế nào bạn biết bạn đang ở trong tình huống nào?

Nhiều chi tiết hơn có thể cung cấp manh mối hữu ích nhưng vì nó đứng (thậm chí không có cỡ mẫu, mặc dù có lẽ ít nhất là 2 hoặc 3 nếu giá trị trung bình không nằm giữa các điểm cuối *), bạn không nhất thiết phải nhận được nhiều giá trị cho câu hỏi đó . Bạn có thể cố gắng để có được giới hạn, nhưng trong nhiều trường hợp họ sẽ không thu hẹp mọi thứ.

* thực sự nếu giá trị trung bình gần với một điểm cuối, bạn có thể nhận được một số giới hạn thấp hơn về kích thước mẫu. Ví dụ: nếu thay vì 10,20,25 cho số tiền tối thiểu / trung bình / tối đa của bạn, bạn có 10 24 25 thì sẽ phải có ít nhất 15 và điều đó cũng cho thấy rằng hầu hết dân số đều trên 24; đó là một cái gì đó Nhưng nếu người ta nói 10,18,25 thì khó hơn nhiều để có được một ý tưởng hữu ích về kích thước mẫu có thể là bao nhiêu, chứ đừng nói đến tỷ lệ dưới mức trung bình.n


2
@DJohnson Tôi không nghĩ đó là hyperbolic - nó hoàn toàn đúng theo nghĩa đen (mặc dù khả năng chúng tôi thực sự liệt kê chúng có thể thất bại sau vài nghìn và khả năng chúng tôi quan tâm để tiếp tục liệt kê chúng có thể thất bại sau vài chục, điều đó không có nghĩa không có bộ giả định nào khác mà chúng tôi có thể vận hành theo). Không có ý định nhượng bộ trong giai đoạn của tôi - nó được chọn một cách có chủ ý để thực sự chỉ ra bề rộng thực sự của các giả định có thể có. Bạn muốn tôi viết gì?
Glen_b -Reinstate Monica

3
1. Lý do để hạn chế khả năng tối đa hai tham số là gì? Điều gì xảy ra nếu dữ liệu được rút ra từ ba tham số lognatural chẳng hạn? Trong nhiều trường hợp, chúng tôi không thể ước tính tất cả các tham số từ dữ liệu, nhưng đó là một phần của vấn đề tôi đang cố gắng thúc đẩy ở đó (nó liên quan đến cuộc thảo luận về các giả định. 2. Johnson và Kotz là một tập hợp con của phân phối mà mọi người đã đặt tên / đã làm việc với, không từ xa ràng buộc vào những giả định nào có thể xảy ra . Tôi đã phát minh ra nhiều bản phân phối không có ở Johnson và Kotz, và ... ctd
Glen_b -Reinstate Monica

4
Ctd ... Tôi khá chắc chắn rằng họ không loại trừ tất cả ở đây. Ngay cả khi không có tham số không xác định, vẫn có vô số các cdf có thể, một tập hợp con không hữu hạn sẽ không bị loại trừ bởi thông tin được chỉ định.
Glen_b -Reinstate Monica

1
@Djohnson Bất kể mức độ của bất kỳ sự bất đồng nào còn lại, tôi đánh giá cao ý kiến ​​hữu ích của bạn. Tôi sẽ xem xét liệu ít nhất có thể chỉ ra rõ ràng hơn những gì tôi thực sự nói hay không (yêu cầu thực tế của tôi có khả năng chứng minh, có cần thiết không, nhưng có lẽ tôi ít nhất có thể nói rõ ràng), và liệu nó có nên được nói theo cách khác không.
Glen_b -Reinstate Monica

4
@DJohnson Thực hiện hai phân phối khác nhau đáp ứng các điều kiện: bất kỳ hỗn hợp nào của cả hai vẫn sẽ thỏa mãn các điều kiện đã nói. Đó thực sự là một vô tận: một không thể đếm được.
Elvis

8

Như Glen_b đã lưu ý , có vô số khả năng. Hãy xem các ô sau đây, chúng cho thấy tám bản phân phối khác nhau có cùng mức tối thiểu, tối đa và trung bình.

Tám bản phân phối khác nhau

Lưu ý rằng chúng rất khác nhau. Đầu tiên là đồng nhất, thứ nhất là hỗn hợp lưỡng cực của các phân bố tam giác, thứ bảy có khối lượng xác suất tập trung nhiều nhất quanh tâm, nhưng vẫn có thể có tối thiểu và tối đa với xác suất rất nhỏ, tám là rời rạc và chỉ có hai giá trị tối thiểu và tối đa, v.v. .

Vì tất cả chúng đều đáp ứng tiêu chí của bạn, bạn có thể sử dụng bất kỳ trong số chúng để mô phỏng. Tuy nhiên sự lựa chọn chủ quan của bạn sẽ có kết quả rất sâu sắc về kết quả mô phỏng. Điều tôi muốn nói là nếu min, max và mean thực sự là điều duy nhất bạn biết về phân phối, thì bạn không có đủ thông tin để tiến hành mô phỏng nếu bạn muốn nó thực sự bắt chước phân phối thực (chưa biết).

Vì vậy, bạn cần phải tự hỏi mình những gì làm bạn biết về sự phân bố? Nó rời rạc hay liên tục? Đối xứng hay lệch? Không chính thống hay lưỡng kim? Có rất nhiều điều để xem xét. Nếu nó liên tục, không đồng nhất và không đồng đều, và bạn chỉ biết tối thiểu, tối đa và trung bình, thì một lựa chọn khả thi là phân phối tam giác - rất khó có khả năng mọi thứ trong cuộc sống thực có phân phối như vậy, nhưng ít nhất bạn đang sử dụng một thứ đơn giản và không áp đặt quá nhiều giả định về hình dạng của nó.


Vì vậy, nếu tôi giả sử phân phối hình tam giác, tôi có thể tính toán chế độ cũng như thông tin hiện tại của mình. Điều đó sẽ giúp?
dùng132053

1
@ user132053 bạn chỉ cần tối thiểu, tối đa và trung bình. Công thức tính trung bình của phân bố tam giác là (a + b + c) / 3 bạn có thể giải nó cho chế độ bằng số học đơn giản.
Tim

4

Một quy tắc dựa trên phạm vi để tính độ lệch chuẩn được trích dẫn rộng rãi trong tài liệu thống kê (đây là một tài liệu tham khảo ... http://statistic.about.com/od/Descriptive-Statistic/a/Range-Rule-For-St Chuẩn -Deviation.htm ). Về cơ bản, nó là (tối đa) / 4. Nó được biết đến là một ước tính rất thô.

Cho rằng thông tin và sẵn sàng giả định dữ liệu được phân phối bình thường, độ lệch bình thường có thể được tạo từ hai số, độ lệch chuẩn trung bình và độ lệch chuẩn dựa trên phạm vi. Điều đó nói rằng, bất kỳ phân phối một hoặc hai tham số nào cũng có thể được tạo từ hai mẩu thông tin này, miễn là phân phối đó được bắt nguồn từ khoảnh khắc đầu tiên hoặc thứ hai.

Một hệ số biến thiên thô cũng có thể được tạo ra bằng cách lấy tỷ lệ SD / Trung bình. Điều này sẽ cung cấp một proxy cho sự biến đổi đơn vị trong dữ liệu.

Lỗi đúng hơn đề cập đến phân phối mẫu của dân số và yêu cầu một tuyên bố về cỡ mẫu, n , để ước tính. Mô tả của bạn không cung cấp chi tiết này.


3
Một số điều đáng chú ý: (1) Giá trị trung bình có khả năng cung cấp thêm thông tin sẽ ghi đè lên quy tắc (tối đa) / 4. (2) Vì ba phần thông tin được đưa ra, chỉ sử dụng một họ hai tham số sẽ nói chung về mức độ linh hoạt.
whuber

@whuber Bạn đã thực hiện hai bình luận ám chỉ về chủ đề này. Điều tuyệt vời là nếu bạn xây dựng chúng và chỉ định một phản hồi.
Mike Hunter
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.