Giúp tôi tính xem có bao nhiêu người sẽ đến dự đám cưới của tôi! Tôi có thể quy một tỷ lệ phần trăm cho mỗi người và thêm họ không?


37

Tôi đang lên kế hoạch cho đám cưới của mình. Tôi muốn ước tính có bao nhiêu người sẽ đến đám cưới của tôi. Tôi đã tạo ra một danh sách những người và cơ hội mà họ sẽ tham dự theo tỷ lệ phần trăm. Ví dụ

Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30%

Tôi có một danh sách khoảng 230 người với tỷ lệ phần trăm. Làm thế nào tôi có thể ước tính có bao nhiêu người sẽ tham dự đám cưới của tôi? Tôi có thể chỉ cần cộng tỷ lệ phần trăm và chia cho 100 không? Ví dụ: nếu tôi mời 10 người với mỗi người 10% cơ hội đến, tôi có thể mong đợi 1 người không? Nếu tôi mời 20 người với 50% cơ hội đến, tôi có thể mong đợi 10 người không?

CẬP NHẬT: 140 người đã đến đám cưới của tôi :). Sử dụng các kỹ thuật được mô tả dưới đây tôi dự đoán khoảng 150. Không quá tồi tàn!


43
Tôi thấy không có con số cho người bạn kết hôn. Đó là số lượng quan trọng nhất.
Nick Cox

6
Tôi đã sử dụng kỹ thuật của bạn cho đám cưới của tôi và nó hoạt động tốt; chúng tôi dự đoán khoảng 80 người và có khoảng 85 người. Tôi lưu ý rằng một khi bạn có tất cả những người đó trong bảng tính của mình, bạn cũng có thể sử dụng cùng một bảng tính để theo dõi những thứ như người bạn đã gửi lời cảm ơn đến, v.v.
Eric Lippert

2
Có liên quan: timharford.com/2013/10/guest-list-angst-a-statistic-approach . Để biết giá trị của nó, tôi đã chọn liên kết đến blog cá nhân của tác giả nhưng bài viết lấy từ chuyên mục của anh ấy trên Thời báo Tài chính.
Steve Jessop

@EricLippert Tôi đã thử một cái gì đó tương tự cho đám cưới của mình nhưng không thành công như vậy. Có một cơn giông rất nghiêm trọng vào ngày và mọi người <30% là một giờ đi làm hoặc nhiều hơn không hiển thị.
OSE

3
@NickCox Ngoài ra họ cũng quên mất.
JFA

Câu trả lời:


32

Giả sử rằng quyết định của những người được mời đến dự đám cưới là độc lập, số lượng khách sẽ đến dự đám cưới có thể được mô hình hóa thành tổng của các biến ngẫu nhiên Bernoulli không nhất thiết phải có xác suất thành công. Điều này tương ứng với phân phối nhị thức Poisson .

Đặt là biến ngẫu nhiên tương ứng với tổng số người sẽ đến dự đám cưới của bạn trong số người được mời. Số lượng người tham gia dự kiến ​​thực sự là tổng số xác suất '' hiển thị '' cá nhân , đó là Việc tạo ra các khoảng tin cậy không đơn giản được đưa ra dưới dạng hàm khối xác suất . Tuy nhiên, chúng rất dễ gần đúng với mô phỏng Monte Carlo .N p i E ( X ) = N i = 1 p i .XNpi

E(X)=i=1Npi.

Hình dưới đây cho thấy một ví dụ về phân phối số lượng người tham gia đám cưới dựa trên 10000 kịch bản mô phỏng (phải) sử dụng một số xác suất xuất hiện giả cho 230 người được mời (trái). Mã R được sử dụng để chạy mô phỏng này được hiển thị bên dưới; nó cung cấp xấp xỉ các khoảng tin cậy.

nhập mô tả hình ảnh ở đây

## Parameters
N      <- 230    # Number of potential guests
nb.sim <- 10000  # Number of simulations

## Create example of groups of guests with same show-up probability
set.seed(345)
tmp    <- hist(rbeta(N, 3, 2), breaks = seq(0, 1, length.out = 21))
p      <- tmp$breaks[-1]    # Group show-up probabilities
n      <- tmp$counts        # Number of person per group

## Generate number of guests by group
guest.mat <- matrix(NA, nrow = nb.sim, ncol = length(p))
for (j in 1:length(p)) {
    guest.mat[, j] <- rbinom(nb.sim, n[j], p[j])
}

## Number of guest per scenario
nb.guests <- apply(guest.mat, 1, sum)

## Result summary
par(mfrow = c(1, 2))
barplot(n, names.arg = p, xlab = "Probability group", ylab = "Group size")
hist(nb.guests, breaks = 21, probability =  TRUE, main = "", xlab = "Guests")
par(mfrow = c(1, 1))

## Theoretical mean and variance
c(sum(n * p), sum(n * p * (1-p)))
#[1] 148.8500  43.8475

## Sample mean and variance
c(mean(nb.guests), var(nb.guests))
#[1] 148.86270  43.23657

## Sample quantiles
quantile(nb.guests, probs = c(0.01, 0.05, 0.5, 0.95, 0.99))
#1%     5%    50%    95%    99% 
#133.99 138.00 149.00 160.00 164.00 

1
Wow điều này thật tuyệt vời. Đây là loại mô phỏng chính xác?
Behacad

4
Đây là một mô phỏng Monte Carlo
QuantIbex

Làm thế nào để bạn chuyển đổi "quy mô nhóm" thành số lượng khách? Tôi có một hình như của bạn ở bên trái, nhưng không chắc làm thế nào để biến nó thành hình bên phải ...
Behacad

Điều này được thực hiện trong dòng 11 đến 18 của mã được cung cấp trong câu trả lời. Đối với kịch bản j, tôi tạo số lượng "hiển thị" cho mỗi nhóm trong 20 nhóm xác suất bằng cách sử dụng phân phối nhị thức và xác suất hiển thị của nhóm đó.
QuantIbex

18

Như đã được chỉ ra, những kỳ vọng chỉ đơn giản là thêm.

Tuy nhiên, biết rằng kỳ vọng không được sử dụng nhiều, bạn cũng cần một số ý nghĩa về sự thay đổi có khả năng xung quanh nó.

Có ba điều bạn cần quan tâm:

  • sự khác biệt trong các cá nhân xung quanh sự mong đợi của họ (một người có 60% cơ hội đến không thực sự đạt được kỳ vọng của họ; họ luôn luôn ở trên hoặc dưới nó)

  • sự phụ thuộc giữa mọi người. Các cặp đôi có thể cả hai sẽ có xu hướng hoặc cả hai tham dự hoặc không. Trẻ nhỏ sẽ không tham dự mà không có cha mẹ. Trong một số trường hợp, một số người có thể tránh đến nếu họ biết người khác sẽ ở đó.

  • lỗi trong ước tính xác suất. Những xác suất đó chỉ là phỏng đoán; bạn có thể muốn xem xét ảnh hưởng của những phỏng đoán hơi khác nhau (có thể là những đánh giá của người khác về những con số đó)

Đầu tiên là có thể tính toán được, bằng cách xấp xỉ bình thường hoặc thông qua mô phỏng. Thứ hai có thể được mô phỏng theo các giả định khác nhau, cụ thể cho mọi người, hoặc bằng cách xem xét một số phân phối phụ thuộc. (Mục thứ ba khó hơn.)


Đã chỉnh sửa để giải quyết các câu hỏi tiếp theo trong các bình luận:

Nếu tôi hiểu chính xác cụm từ của bạn, đối với gia đình 4 người, bạn có 50% cơ hội cho mỗi người trong số 4 người hoặc không có ai đến. Đó chắc chắn là con số 2, nhưng bạn cũng muốn có một số ý tưởng về sự thay đổi xung quanh kỳ vọng, trong trường hợp đó bạn có thể muốn giữ tình trạng thực tế là 50% của 0/50% của 4.

Nếu bạn có thể phân chia tất cả mọi người thành các nhóm độc lập, thì một xấp xỉ đầu tiên tốt (với rất nhiều nhóm như vậy) sẽ là sau đó để thêm phương tiện và phương sai giữa các nhóm độc lập và sau đó coi tổng là bình thường (có lẽ với hiệu chỉnh liên tục). Cách tiếp cận chính xác hơn sẽ là mô phỏng quá trình hoặc tính toán phân phối chính xác thông qua tích chập số; Mặc dù cả hai cách tiếp cận đều đơn giản, đây là một mức độ chính xác không cần thiết cho ứng dụng cụ thể này, vì đã có quá nhiều lớp gần đúng - giống như được nói kích thước của một căn phòng đến chân gần nhất và sau đó tính toán lượng sơn bạn cần đến mililit gần nhất - độ chính xác bổ sung là vô nghĩa.

Vì vậy, hãy tưởng tượng (để đơn giản) chúng tôi có bốn nhóm:

1) nhóm A (1 cá nhân) - 70% cơ hội tham dự

2) nhóm B (1 cá nhân) - 60% cơ hội tham dự

3) nhóm C (gia đình 4 người) - 0: 0,5 4: 0,5 (nếu có ai ở nhà, sẽ không có ai đến)

4) nhóm D (cặp đôi 2) - 0: 0,4 1: 0,1 2: 0,5 (nghĩa là 50% cơ hội của cả hai, cộng với 10% cơ hội chính xác một người sẽ đến, ví dụ nếu người kia có cam kết công việc hoặc bị bệnh)

Sau đó, chúng tôi nhận được các phương tiện và phương sai sau đây:

      mean   variance
  A    0.7     0.21
  B    0.6     0.24
  C    2.0     4.0
  D    1.1     0.89

 Tot   4.4     5.34

Vì vậy, một xấp xỉ bình thường sẽ khá khó khăn trong trường hợp này, nhưng sẽ gợi ý rằng hơn 7 người sẽ khó xảy ra (theo thứ tự 5%), và 6 hoặc ít hơn sẽ xảy ra khoảng 75-80% thời gian.

[Một cách tiếp cận chính xác hơn sẽ là mô phỏng quá trình, nhưng về vấn đề đầy đủ hơn là ví dụ cắt giảm thì điều này có lẽ không cần thiết vì đã có quá nhiều lớp xấp xỉ.]


Khi bạn có phân phối kết hợp kết hợp các phụ thuộc nhóm như vậy, bạn có thể muốn áp dụng bất kỳ nguồn phụ thuộc chung nào (như thời tiết khắc nghiệt) - hoặc bạn có thể chỉ muốn bảo đảm chống lại hoặc thậm chí bỏ qua các tình huống như vậy, tùy thuộc vào hoàn cảnh .


5
+1 để đề cập đến phụ thuộc. Những điều này phát sinh vì những lý do khác hơn là mối quan hệ giữa các cá nhân, chẳng hạn như điều kiện thời tiết và du lịch. Nhiều người trong số họ gây ra mối tương quan tích cực - mở rộng phạm vi của sự không chắc chắn. Nếu các ước tính sẽ được sử dụng để cung cấp hậu cần (bữa ăn, chỗ ngồi, v.v.), việc đánh giá chính xác biến thể là có giá trị. Mặc dù trong một ứng dụng đám cưới, người ta không thể làm gì nhiều hơn là đưa ra một phỏng đoán có giáo dục, có một sự hiểu biết định tính về các hiện tượng thống kê này có thể dẫn đến những dự đoán tốt hơn.
whuber

@whuber Điểm tốt về các nguồn phụ thuộc khác, chẳng hạn như thời tiết. Trong một số trường hợp, những thứ như vậy có thể dễ dàng tràn ngập các hiệu ứng tôi đề cập.
Glen_b -Reinstate Monica

Làm thế nào tôi có thể dễ dàng đưa vào tài khoản phụ thuộc? Ví dụ, nếu tôi biết về một cặp vợ chồng có hai con và tôi hy vọng rằng cha mẹ có khoảng 50% cơ hội đến. Tôi biết họ sẽ mang theo con nếu họ đến. Có phải tiết kiệm để quy 50% cho mỗi người, và về cơ bản giả định rằng có 2 người đang đến?
Behacad

2
@Behacad: Nếu bạn biết đó là câu hỏi của tất cả hoặc không có với một nhóm nhất định, bạn chỉ có thể ước tính xác suất của nhóm đến dưới dạng một đơn vị và cân nhắc nhóm theo số lượng cá nhân trong đó. Tôi đồng ý rằng lề lỗi cũng sẽ tốt khi đưa vào ước tính của bạn.
Nick Stauner

Cảm ơn bạn. Tôi có một bảng nhỏ với tỷ lệ phần trăm và số người có tỷ lệ đó, nhưng tôi không biết chính xác phải làm gì bây giờ. Tôi nên thêm phương tiện gì? Phương sai gì? (100% -52, 90% -21, 80% -34, 70% -16,60% -32,50% -35,40% -25,30% -11,20% -22,10% -15 , 0% -9)
Behacad

5

(Bỏ qua nhận xét trước đó của tôi về điều này - Tôi chỉ nhận ra rằng tôi đang nhầm lẫn giữa kỳ vọng với điều gì khác.) Cho rằng về cơ bản bạn đang cố gắng tìm kiếm sự kỳ vọng về số lượng người xuất hiện, về mặt lý thuyết bạn có thể thêm xác suất của mỗi người hiển thị lên để làm như vậy.

Điều này là do chúng ta có thể coi ai đó hiển thị là lấy giá trị hoặc và vì kỳ vọng là toán tử tuyến tính.101

Tuy nhiên, điều này chỉ mang lại cho bạn giá trị mong đợi - không có giả định nào thêm, có vẻ khó ước tính những thứ như phương sai của người xuất hiện, đặc biệt là vì khá công bằng khi cho rằng người A xuất hiện không nhất thiết phải độc lập với người B xuất hiện.

Bỏ qua một bên, đây là một bài báo mơ hồ của BBC.


Cảm ơn bạn! Vì vậy, chỉ để xác nhận, nếu tôi nghĩ 10 người có 10% cơ hội đến, tôi có thể đoán rằng 1 người sẽ đến, chẳng hạn.
Behacad

Về lý thuyết là có, nhưng có vẻ khó xây dựng bất cứ điều gì hữu ích hơn (ví dụ: khoảng tin cậy) mà không có bất kỳ giả định nào thêm về mọi thứ.

Cảm ơn bạn. Làm thế nào tôi có thể đến khoảng tin cậy?
Behacad

Điều đó tôi không hoàn toàn chắc chắn vì một số lý do. (Có lẽ tôi sẽ phải dành nhiều thời gian hơn để tìm kiếm một số điều để đưa ra bất kỳ câu trả lời chi tiết nào về điều đó.)

4

Đối với số lượng lớn, 80% là những gì bạn mong đợi. Đây có thể là một tình huống trong đó phân tích chi tiết khi bạn đề xuất chỉ thêm lỗi vào các tính toán.
Ví dụ, sự tham dự tiềm năng của Marc có thực sự bằng 1/3 so với Joseph không? Và Joseph thực sự là 30%, hay có thể là 25%? Mọi thứ xảy ra khi bạn đạt được số lượng lớn chỉ đơn giản là có giá trị hơn 80% so với tất cả các phân tích này. Tôi vừa trở về từ một đám cưới. 550 mời. 452 người tham dự. Đối với mục đích lập kế hoạch hội trường và bắt đầu nói chuyện với người cung cấp, ước tính ban đầu là 440 là ổn.

Tôi có thể cung cấp một dòng từ bánh mì nướng của tôi cho cặp vợ chồng? "Hãy nhớ rằng, nếu vợ bạn hạnh phúc, nhưng bạn không hạnh phúc, bạn vẫn hạnh phúc hơn nhiều so với nếu vợ bạn không hạnh phúc, nhưng bạn hạnh phúc."


Cảm ơn bạn! Một mối quan tâm là mọi người sẽ đến từ khắp nơi và từ các khoảng cách khác nhau. Một số khá xa, số khác chỉ xuống phố.
Behacad

3
Con số này có thể phụ thuộc vào văn hóa.
Juho Kokkala

@Juho - đó có thể là. Tôi đang ở Mỹ và trong ví dụ gần đây của tôi, đó là một đám cưới đích cho khoảng một nửa số người được mời, tức là đám cưới ở quê nhà của cô dâu. Tôi tự hỏi sự khác biệt văn hóa nào sẽ ảnh hưởng đến việc bỏ phiếu, nhưng tôi nghi ngờ bạn đúng.
JTP - Xin lỗi đến

4
Đây là một ví dụ tuyệt vời về một công cụ ước tính tồn tại trong lý thuyết nhưng có vẻ bất thường trong thực tế (cho đến khi bạn tìm kiếm loại điều này): với bất kỳ tập hợp dữ liệu nào, nó sẽ trả về một số được xác định trước (80% trong trường hợp này). Nó rất dễ tính toán, rất rẻ (chi phí thu thập dữ liệu có thể giảm xuống bằng 0) và có phương sai bằng không. Đó là Bayes (cho một nguyên tử trước) và được chấp nhận. Vẫn sẽ có những câu hỏi dai dẳng về sự thiên vị và tính nhất quán của nó có thể khó giải quyết và sẽ không biến mất bằng cách tránh một "phân tích chi tiết".
whuber

2

Là một nhà thống kê vừa kết hôn, tôi sẽ nói với bạn rằng JoeTaxpayer có câu trả lời đúng. Con số 80% khiến tôi hơi cao, tuy nhiên có thể chính xác nếu hầu hết mọi người là người địa phương (chúng tôi là một đám cưới đích và chúng tôi đã hạ cánh xuống gần 65%).

Nhưng dù sao, bạn đang giả định rất nhiều sự thay đổi trong các xác suất trước đây mà mọi người tham dự, tôi nghĩ nhiều hơn là thực sự tồn tại. Giả sử bạn không mời những người chủ động không thích bạn, bạn nên cho rằng mọi người sẽ đến vì họ nằm trong khả năng của họ và họ không có xung đột (theo nghĩa rộng), nhưng ít nhất 10-20% SILL có một cái gì đó giữ cho họ tham dự. Đối với những người phải đi du lịch, điều đó làm tăng thời gian và tiền bạc cần thiết, vì vậy con số 30 - 35% khách du lịch sẽ không tham dự (tùy theo khoảng cách). Mặt khác, giữ cho xác suất không đổi (ngay cả khi bố mẹ bạn nói "ồ, vậy thì sẽ không bay đến Austin, chúng tôi chỉ muốn mời họ ..."). Nếu bạn đang có một buổi tiếp tân vui vẻ, đặc biệt là với một quán bar mở, mọi người thường sẽ không bỏ qua điều đó trừ khi họ phải làm vậy.

Dù sao, chúc mừng kết hôn. Bây giờ về xác suất bạn kết hôn, đây luôn là một bài đọc tốt: http://users.nber.org/~bstevens/ con / Marital_Stability.pdf

:-)


1

Thêm tất cả các xác suất, đó là số lượng người dự kiến ​​của bạn sẽ đến.

Pii1iPi1i

Tất nhiên, chúng tôi cho rằng việc ai đó đến hay không không phụ thuộc vào sự tham dự của người khác. Giả định này đơn giản là sai. Hãy xem xét các cặp vợ chồng, họ có mối tương quan cao.

2×1iPiPi


1

Đối với đám cưới của tôi, tôi đã lập hai danh sách - có khả năng tham dự (80%) và không có khả năng tham dự (20%). Bất kể mọi đánh giá tinh tế hơn vì bất kỳ lý do nào, tôi đã chỉ định mọi người được mời vào một trong hai nhóm. Tôi đã nghỉ 2 người. N = 1. Hoàn toàn heuristic.


Tôi xin hỏi? Tỷ lệ% cuối cùng là bao nhiêu?
JTP - Xin lỗi đến Monica

72% trả lời có, nhưng tôi quên mất bao nhiêu ngày hủy.
michaelcarniol

0

Tôi nhận thấy rằng không ai chỉ ra rằng bạn không cần chia cho 100. Tỷ lệ phần trăm của bạn có thể được xem là phần dự kiến ​​của một người sẽ xuất hiện, với sự hiểu biết rằng, giống như con mèo của Schrödinger, bạn sẽ không có được một phần của một người tham dự hoặc không tham dự, nhưng trạng thái tham dự của mỗi người sẽ được giải quyết hoàn toàn tại thời điểm diễn ra sự kiện.

Vì phạm vi tỷ lệ phần trăm của bạn chạy từ 0% (không có ai xuất hiện) đến 100% (tất cả những người xuất hiện), trong hai ví dụ của bạn liên quan đến 10 và 20 người, bạn đã tổng hợp giá trị mong đợi cho mỗi phần người xuất hiện và có một số có đơn vị là "người".

Phương trình nổi bật trong câu trả lời tuyệt vời của QuantIbex cho thấy rằng tổng tỷ lệ phần trăm dẫn đến số lượng người dự kiến ​​tại sự kiện, không có sự phân chia nào.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.