Xác suất sinh vào một ngày nhuận?


31

Cho rằng hôm nay là một ngày nhuận, có ai biết xác suất sinh vào một ngày nhuận không?


30
Lưu ý rằng các lần sinh không được phân phối đồng đều trong suốt cả năm, do đó xác suất một ngày được chọn ngẫu nhiên là một ngày nhuận không giống như xác suất sinh vào một ngày.
Ben Millwood

17
Của người được sinh ra? Tất cả mọi người trong lịch sử? Hôm nay? Tất cả mọi người còn sống? Triển vọng trong tương lai? Xác suất là vô nghĩa trừ khi các sự kiện mà chúng đề cập đến được xác định rõ.
whuber

15
100% những người sinh ra sẽ có ngày hôm nay. cái đó có giúp ích không?
vào

8
Rất nhiều cha mẹ không muốn con mình chào đời vào ngày nhuận. Vì vậy, với sự gia tăng của các phần C theo lịch trình, xác suất sẽ thấp hơn một ngày ngẫu nhiên. fivethentyeight.com/features/ trộm
James Lawruk 29/2/2016

3
Tôi đồng ý với @whuber, rằng câu hỏi không được xác định rõ ràng. Nếu không có định nghĩa đúng về không gian xác suất, câu hỏi không thể được trả lời. Do đó downvote.
mpiktas

Câu trả lời:


24

Chắc chắn rồi. Xem ở đây để được giải thích chi tiết hơn: http://www.public.iastate.edu/~mlamias/LeapYear.pdf .

Nhưng về cơ bản, tác giả kết luận: "Có 485 năm nhuận trong 2 thiên niên kỷ. Vì vậy, trong 2 thiên niên kỷ, có tổng số ngày. Trong những ngày đó, ngày 29 tháng 2 xảy ra trong 485 trong số họ (những năm nhuận), vì vậy xác suất là 485 / 730.485 = 0,0006639424 "485(366)+(2000485)(365)=730485485/730485=0.0006639424


9
Tại sao nó không thể được tính là 1 / (Số ngày trong 4 năm) = 1/1461 = 0,00068 ?
Siddhesh

21
@Siddhesh Có một quy tắc liên quan đến các thế kỷ. Vì vậy, ví dụ 2100 không phải là năm nhuận
Rentrop

8
@Siddhesh, Thật không may, nó không hoàn toàn đơn giản. Năm nhuận phức tạp hơn một chút. Độ dài trung bình của một năm thực sự là trung bình, 365,2425 ngày chứ không phải 365,25. Như được viết trên trang năm nhuận của wikipedia, "Lịch Gregorian. ... xóa ba ngày nhuận cứ sau 400 năm, đó là độ dài của chu kỳ nhảy vọt của nó. Điều này được thực hiện bằng cách xóa ngày 29 tháng 2 trong ba năm thế kỷ (bội số của 100) không thể chia chính xác cho 400. [3] Năm 2000 và 2400 là năm nhuận, trong khi 1800, 1900, 2100, 2200, 2300 và 2500 là năm phổ biến. "
StatsStudent

10
Tôi không thấy lý do tại sao bạn cần xem xét 2000 năm; năm nhuận đang trong chu kỳ 400 năm, vậy tại sao không giảm xuống còn "có 97 năm nhuận trong 400 năm"?
Philip Kendall

7
Tại sao chúng ta nên coi những ảnh hưởng nhỏ như "ngày hủy" trong những năm thế kỷ không phải là bội số của 400 nhưng mặt khác không phải là yếu tố ảnh hưởng bên ngoài, chẳng hạn như hầu hết các ca sinh nở bị trì hoãn hoặc giới thiệu trước ngày 29 tháng 2, chỉ để lưu lại Đứa trẻ từ sự bất tiện (hoặc lý do khác)? - Ít nhất ở đây tại Đức, xác suất sinh con xảy ra vào bất kỳ ngày 29 tháng 2 nào là (ước tính) gần như bằng không.
Tôi với Monica

23

Để dự đoán chính xác xác suất đó bằng cách sử dụng số liệu thống kê, sẽ rất hữu ích khi biết nơi sinh ra.

Trang này http://chmullig.com/2012/06/births-by-day-of-year/ có một biểu đồ cho thấy một tập hợp con của số lần sinh mỗi ngày (nhân số 29 với 4, không chính xác và không mong muốn cho câu hỏi này, nhưng nó cũng liên kết đến dữ liệu gốc và đưa ra một dấu hiệu sơ bộ về những gì bạn có thể mong đợi) ở Hoa Kỳ. Tôi cho rằng đường cong này không đúng với các quốc gia khác, và đặc biệt là không đúng với các châu lục khác. Cụ thể, bán cầu nam và vùng xích đạo có thể cho thấy một sự xuất phát đáng kể từ những kết quả này - giả định rằng khí hậu là một yếu tố quyết định.

Hơn nữa, có vấn đề "sinh tự chọn" (được các tác giả của http://bmjopen.bmj.com/content/3/8/e002920.full ) - ở những vùng nghèo hơn trên toàn cầu, tôi mong đợi một sự khác biệt phân phối các ca sinh nở, đơn giản là vì (không khẩn cấp-) mổ lấy thai hoặc sinh thường hiếm hơn ở các nước phát triển. Điều này xiên phân phối cuối cùng của sinh.

Sử dụng dữ liệu của Mỹ, giả sử ~ 71 triệu ca sinh (có nghĩa là biểu đồ thô * 366) và 46.000 ca sinh vào ngày 29 tháng 2, không sửa lỗi cho phân phối năm nhuận trong dữ liệu, vì không xác định được thời gian chính xác, tôi đi đến xác suất khoảng ~ 0,000648. Giá trị này thấp hơn một chút so với giá trị mà người ta mong đợi được phân phối theo tỷ lệ sinh, và do đó phù hợp với ấn tượng chung được đưa ra bởi biểu đồ.

Tôi sẽ để lại một bài kiểm tra quan trọng về ước tính sơ bộ này cho một người đọc có động lực. Nhưng với điều kiện thứ 29 (mặc dù không được quan tâm - năm 2000 đưa dữ liệu sai lệch trung bình vào dữ liệu) đạt điểm thấp ngay cả đối với các tiêu chuẩn tháng hai đã thấp, tôi cho rằng độ tin cậy tương đối cao có thể bị bác bỏ.


1
Bộ dữ liệu có ngày 30 tháng 2 và 31 ngày sinh. Điều đó thật buồn cười. Nó cần được dọn dẹp tốt trước khi phân tích, nhưng nó có rất nhiều dữ liệu rất tuyệt vời.
Aksakal

22

Tôi nghĩ rằng câu trả lời cho câu hỏi này chỉ có thể là kinh nghiệm. Bất kỳ câu trả lời lý thuyết sẽ là thiếu sót nếu không có hiện tượng lựa chọn sinh nhật, tính thời vụ, vv Những điều này là không thể đối phó với lý thuyết.

Dữ liệu sinh nhật khó tìm thấy ở Mỹ vì lý do riêng tư. Có một dữ liệu ẩn danh được đặt ở đây . Đó là từ các ứng dụng bảo hiểm ở Mỹ. Sự khác biệt so với các báo cáo khác, chẳng hạn như một bài báo phổ biến thường được trích dẫn của NYT , là nó liệt kê tần suất sinh theo ngày, thay vì xếp hạng đơn giản các ngày trong một năm. Điểm yếu tất nhiên là sai lệch lấy mẫu, vì nó xuất phát từ bảo hiểm: những người không có bảo hiểm không được bao gồm, v.v.

Theo dữ liệu đã có 325 ca sinh vào ngày 29 tháng 2 trên tổng số 481040. Theo Roy Murphy , các mẫu kéo dài từ năm 1981 đến năm 1994. Nó bao gồm 3 năm nhuận trong tổng số 14 năm. Nếu không có bất kỳ sự điều chỉnh nào, xác suất sẽ là 0,0675% khi sinh vào ngày 29 tháng 2 năm 1981 và 1994.

14/12pFo=325fL=3

Fo=fL/NFp,
N=14F=481040

pL1/4PL

PL=pLppLNfLFoF0.079%

p

p=NfLFoF0.32%

PLp

Tất nhiên, cuộc thảo luận này là trung tâm của Hoa Kỳ. Ai biết các mô hình ở các nước khác là gì.

CẬP NHẬT: Chúng tôi tự động cho rằng OP là lịch Gregorian. Sẽ còn thú vị hơn nữa nếu bạn xem xét các lịch khác nhau như lịch âm Hijri , trong đó những năm nhuận cứ sau 30 năm.

CẬP NHẬT 2:

pFp=1,527Amitabh Chandra, Harvard University

Bây giờ, có khả năng như thế nào là những ngày rất đặc biệt trong lịch Gregorian: ngày 1 tháng 1, ngày 25 tháng 12 và Deb 29 sẽ đến ngẫu nhiên như những ngày sinh nhật phổ biến nhất? Tôi nói nó rất khó xảy ra ngẫu nhiên. Do đó, sẽ thú vị hơn nữa khi xem những gì đang diễn ra trong các lịch khác như Hijri.

CẬP NHẬT 3:

PL,p

p^1/3660.27
P^Lp3663654+10.068

CẬP NHẬT 4:

χ2

14365+3

d=[0101 1482
...
1231 1352];
%%
tc = sum(d(:,2)); % total obs

idL = 60; % index of Feb 29

% theor frequency, assuming uniform
ny = 1994 - 1981 + 1; % num of years
nL = 3; % # of leap years: 1984, 1988, 1992
nd = 365*ny + nL; % total # of days

fc = tc/nd; % expected freq for calendar date in sample
td = ones(366,1)*fc*ny; % roll the dates into day of year
td(idL) = fc*nL;

fprintf(1,'non-leap day expected freq: %f\n',td(end))
fprintf(1,'leap day expected freq: %f\n',td(idL))
fprintf(1,'non-leap day average freq: %f\n',mean(d([1:idL-1 idL+1:end],2)))
fprintf(1,'non-leap day freq std dev: %f\n',std(d([1:idL-1 idL+1:end],2)))
fprintf(1,'leap day observed freq: %f\n',d(idL,2))

% plots
bar(d(:,2))
hold on
plot(td,'r')
legend('empirical','theoretical')
title('Distribution of birth dates 1981-1994')
set(gca,'XTick',1:30:366)
set(gca,'XTickLabels',[num2str(floor(d(1:30:366,1)/100)) repmat('/',13,1) num2str(rem(d(1:30:366,1),100))])
grid on

% chi^2 test
[h p]=chi2gof(d(:,2),'Expected',td)

ĐẦU RA:

non-leap day expected freq: 1317.144534
leap day expected freq: 282.245257
non-leap day average freq: 1317.027397
non-leap day freq std dev: 69.960227
leap day observed freq: 325.000000

h =

     1


p =

     0

nhập mô tả hình ảnh ở đây


3
Đó là một phân tích hữu ích (+1). Nó khiến tôi tự hỏi về mối liên hệ nào, nếu có, giữa tần số bạn phân tích và xác suất (được xác định mơ hồ) được yêu cầu trong câu hỏi.
whuber

1
@whuber, xác suất trong câu trả lời của tôi dành cho các trường hợp như phân tích ứng dụng bảo hiểm hoặc một số dữ liệu người dùng. Chẳng hạn, bạn có một trang web và muốn gắn cờ dữ liệu người dùng có vấn đề. Bạn có thể so sánh tần suất của ngày sinh nhật 29 tháng 2 với xác suất của tôi. Tuy nhiên, nếu bạn đang lên kế hoạch cho một gia đình và đặt câu hỏi này, thì con số của tôi là vô ích, khá nhiều. Lý do là vì họ không tính đến các yếu tố như khi chính xác cặp vợ chồng thực sự giao hợp hoặc khả năng sinh sản và thời gian của các cặp vợ chồng, là yếu tố chính quyết định ngày sinh.
Aksakal

Vui mừng khi thấy bạn đã không bắt đầu với toán học trước khi xem xét các yếu tố khác, ngoài các số liệu thống kê thuần túy
TheBlastOne

8

Bìa cuốn sách yêu thích của tôi từng cung cấp một số bằng chứng có liên quan cao chống lại giả định phân bổ sinh thường cho đến ngày. Cụ thể, những ca sinh ở Mỹ từ năm 1970 thể hiện một số xu hướng được áp dụng cho nhau: xu hướng dài, nhiều thập kỷ, xu hướng không định kỳ, xu hướng trong tuần, xu hướng ngày, xu hướng ngày lễ (vì các thủ tục như Cesarean phần cho phép một người lên lịch sinh nhật một cách hiệu quả và các bác sĩ thường không làm những việc đó vào các ngày lễ). Kết quả là xác suất sinh vào một ngày được chọn ngẫu nhiên trong một năm là không đồng nhất và vì tỷ lệ sinh thay đổi giữa các năm, nên không phải tất cả các năm đều có khả năng như nhau.

Điều này cũng cung cấp bằng chứng cho thấy giải pháp của Asksal, trong khi một ứng cử viên rất mạnh, cũng không đầy đủ. Một số ít ngày nhuận sẽ bị "ô nhiễm" bởi tất cả các hiệu ứng khi chơi ở đây, vì vậy ước tính của Asksal cũng đang nắm bắt (khá tình cờ) ảnh hưởng của các xu hướng trong tuần và dài hạn cùng với ngày 29 tháng 2 hiệu ứng. Những hiệu ứng nào và không phù hợp để bao gồm không được xác định rõ ràng bằng câu hỏi của bạn.

Và phân tích này chỉ có liên quan đến Hoa Kỳ, nơi có xu hướng nhân khẩu học có thể khá khác biệt với các quốc gia hoặc dân số khác. Tỷ lệ sinh của Nhật Bản đã giảm trong nhiều thập kỷ, ví dụ. Tỷ lệ sinh của Trung Quốc được quy định bởi nhà nước, với một số hậu quả đối với thành phần giới tính của quốc gia và do đó tỷ lệ sinh ở các thế hệ tiếp theo.

Tương tự như vậy, phân tích của Gelman chỉ mô tả vài thập kỷ gần đây và không nhất thiết phải rõ ràng rằng đây thậm chí là thời đại quan tâm đến câu hỏi của bạn.

nhập mô tả hình ảnh ở đây

Đối với những người cảm thấy hào hứng với loại điều này, tài liệu trong trang bìa sẽ được thảo luận ở phần dài trong chương về các quy trình Gaussian.


2
Một mô tả ngắn gọn về mô hình được sử dụng cũng có sẵn trong bài đăng trên blog ở đây: andrewgelman.com/2012/06/19/ mẹo
Sakari Cajanus

3

Ngày 29 tháng 2 là một ngày xảy ra mỗi năm là bội số của 4 .

Tuy nhiên, số năm là bội số của 100 nhưng không phải là một trong số 400, không được coi là năm nhuận (Ví dụ: 1900 không phải là năm nhuận trong khi 2000 hoặc 1600 là). Do đó, ngày nay, nó là mô hình tương tự cứ sau 400 năm.

Vì vậy, hãy làm toán trên một khoảng [0; 400 [ :

Trong khoảng thời gian 400 năm, có chính xác 4 x 25 = 100 năm là bội số của 4 . Nhưng chúng ta phải trừ 3 (bội số của 100 nhưng không phải là 400) từ 100 và chúng ta nhận được 100 - 3 = 97 năm.

Bây giờ chúng ta phải nhân 97 với 366, 97 x 366 = 35502 (số ngày trong một năm nhuận trong khoảng thời gian 400 năm), nó vẫn còn (365 x (400-97)) = 110 595 (số ngày phát sinh ' t trong một năm nhuận trong khoảng thời gian 400 năm).

Sau đó, chúng ta chỉ cần thêm hai số này để biết tổng số ngày trong khoảng thời gian 400 năm: 110 595 + 35502 = 146 097 .

Để kết thúc, xác suất của chúng tôi là số ngày 29 tháng 2 trong khoảng thời gian 400 năm, do đó 97 cho rằng có 97 năm nhuận chia cho tổng số ngày trong khoảng thời gian của chúng tôi:

p = 97/146097 ≈ 0,0006639424492

Hy vọng điều này là đúng và rõ ràng.


7
Đây là một phân tích tốt đẹp về cơ hội một ngày được chọn ngẫu nhiên sẽ là ngày 29 tháng 2. Tôi tin rằng hầu hết các cuộc thảo luận trong chủ đề này tập trung vào thực tế rằng điều này không thực sự trả lời các câu hỏi về cơ hội sinh nở, không thực sự hành xử giống như rút ra ngẫu nhiên từ tập hợp các ngày có thể.
whuber

1
Một cách dễ dàng hơn nhiều để nói rằng có 97 năm nhuận trên 400 năm theo cách bạn đã làm. Tính số ngày trong 400 năm bình thường. 400 * 365 = 146000. Sau đó, bạn cần thêm 97 ngày nhuận cho 146097.
CJ Dennis

2

Tôi tin rằng có hai câu hỏi được trộn lẫn ở đây. Một là "xác suất của bất kỳ ngày nào là ngày 29 tháng 2?". Điều thứ hai là (và người thực sự đã hỏi) "Xác suất sinh ra vào ngày nhuận là bao nhiêu?"

p=971460970,00066394

3149740097400143=6796001.131667

01


2
Errr, tôi đã sẵn sàng bỏ phiếu này, và sau đó tôi đã nhận được , đối với bất kỳ ai đã sinh ra đều dễ dàng. Đó là 0 hoặc 1. Không.
mattdm

Tôi đoán điều này bản lề một chút về việc giải thích xác suất. Giả sử tôi đã lật một đồng xu. Tôi nhìn vào nó và biết kết quả (ví dụ như người đứng đầu). Bạn đang đứng cạnh tôi, nhưng chưa thấy kết quả. Xác suất của đồng xu hiển thị đầu (đối với bạn, đối với tôi, "khách quan") là gì? Trong ví dụ trên: đối với người được sinh ra (xác định) xác suất là 0 hoặc 1 (giả sử anh ta biết mình sinh vào ngày nào). Nếu bạn chọn một người một cách ngẫu nhiên và bạn phải đoán ngày sinh nhật của anh ta, xác suất đó là ngày 29 tháng 2 lại là một câu hỏi thực nghiệm.
data_enthusiast 3/03/2016

1

Tôi đã nhận thấy rằng hầu hết các câu trả lời ở trên đều giải quyết vấn đề này bằng cách tính số ngày nhuận trong một khoảng thời gian cụ thể. Có một cách đơn giản hơn để có câu trả lời, chính xác 100%, theo định nghĩa:

Chúng tôi sử dụng năm nhuận để điều chỉnh lịch (365 ngày) theo năm nhiệt đới trung bình (hay còn gọi là năm mặt trời). Năm nhiệt đới trung bình "là thời gian Mặt trời quay trở lại vị trí tương tự trong chu kỳ của các mùa, như nhìn từ Trái đất" (Wikipedia). Năm nhiệt đới thay đổi một chút, nhưng năm nhiệt đới trung bình (trung bình) là khoảng 365,24667.

Nếu ngày nhuận là chính xác, thì cơ hội của một ngày được chọn ngẫu nhiên là ngày nhuận, là ((năm nhiệt đới) - (không phải năm nhuận)) / năm nhiệt đới

Cắm số gần đúng mà chúng tôi có, đó là (365.24667-365) /365.24667, hoặc 0.24667 / 365.24667, hoặc 675 mỗi triệu (0,0675%).

Điều này, tuy nhiên, là cho một ngày được chọn ngẫu nhiên. Tôi tưởng tượng rằng điều này thực sự bị sai lệch bởi các bậc cha mẹ, những người thà không phải giải thích với con cái họ, "sinh nhật thực tế của bạn chỉ đến một lần trong 4 năm".


3
Tôi không nghĩ rằng câu trả lời này được hỏi, bởi vì ngày nhuận, 29 tháng 2, chỉ tồn tại trong các hệ thống lịch cụ thể. Những hệ thống lịch này chỉ được sử dụng trong các xã hội cụ thể trong thời đại lịch sử gần đây. Ví dụ, câu hỏi này không dễ hiểu đối với người tính thời gian sử dụng lịch Do Thái, không có "tháng hai" nào cả! Hơn nữa, ngay cả khi chúng ta giả sử một lịch có một ngày nhuận, nó vẫn không giải quyết được sự không xác định xung quanh phân phối xác suất sinh đến ngày.
Sycorax nói Phục hồi Monica

@ user777, điều đó không liên quan. Nếu bạn thuộc về một nền văn hóa không công nhận ngày nhuận, vẫn sẽ có những cá nhân được sinh ra vào ngày nhuận của chúng tôi .
Bạch tuộc

1
@Octopus Không phải nếu chúng được sinh ra trước tháng 10 năm 1582, tháng mà lịch Gregorian được giới thiệu. Câu hỏi không đủ cụ thể để cho phép một người nhận ra quần thể nào đang được xem xét, đó là lý do tại sao nhận xét của tôi có liên quan nghiêm trọng.
Sycorax nói phục hồi Monica

@ user777, bạn đang chia tóc. Vấn đề là lịch Gregorian tồn tại ngày nay và nó có thể được sử dụng để đặt mỗi ngày trong lịch sử, cho dù họ có quan sát nó vào thời điểm đó hay không.
Bạch tuộc

1
@Octopus Làm thế nào để bạn biết đó là điểm?
Sycorax nói phục hồi Monica

-4

Tôi đã hỏi em gái tôi, người có ngày sinh nhật là 29 tháng 2 và cô ấy nói: "Kết quả của nghiên cứu thực nghiệm của riêng tôi là nó là 1,00, rõ ràng."


Chà, có vẻ như không được đánh giá cao. Lưu ý
John Smith
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.