Cho rằng hôm nay là một ngày nhuận, có ai biết xác suất sinh vào một ngày nhuận không?
Cho rằng hôm nay là một ngày nhuận, có ai biết xác suất sinh vào một ngày nhuận không?
Câu trả lời:
Chắc chắn rồi. Xem ở đây để được giải thích chi tiết hơn: http://www.public.iastate.edu/~mlamias/LeapYear.pdf .
Nhưng về cơ bản, tác giả kết luận: "Có 485 năm nhuận trong 2 thiên niên kỷ. Vì vậy, trong 2 thiên niên kỷ, có tổng số ngày. Trong những ngày đó, ngày 29 tháng 2 xảy ra trong 485 trong số họ (những năm nhuận), vì vậy xác suất là 485 / 730.485 = 0,0006639424 "
Để dự đoán chính xác xác suất đó bằng cách sử dụng số liệu thống kê, sẽ rất hữu ích khi biết nơi sinh ra.
Trang này http://chmullig.com/2012/06/births-by-day-of-year/ có một biểu đồ cho thấy một tập hợp con của số lần sinh mỗi ngày (nhân số 29 với 4, không chính xác và không mong muốn cho câu hỏi này, nhưng nó cũng liên kết đến dữ liệu gốc và đưa ra một dấu hiệu sơ bộ về những gì bạn có thể mong đợi) ở Hoa Kỳ. Tôi cho rằng đường cong này không đúng với các quốc gia khác, và đặc biệt là không đúng với các châu lục khác. Cụ thể, bán cầu nam và vùng xích đạo có thể cho thấy một sự xuất phát đáng kể từ những kết quả này - giả định rằng khí hậu là một yếu tố quyết định.
Hơn nữa, có vấn đề "sinh tự chọn" (được các tác giả của http://bmjopen.bmj.com/content/3/8/e002920.full ) - ở những vùng nghèo hơn trên toàn cầu, tôi mong đợi một sự khác biệt phân phối các ca sinh nở, đơn giản là vì (không khẩn cấp-) mổ lấy thai hoặc sinh thường hiếm hơn ở các nước phát triển. Điều này xiên phân phối cuối cùng của sinh.
Sử dụng dữ liệu của Mỹ, giả sử ~ 71 triệu ca sinh (có nghĩa là biểu đồ thô * 366) và 46.000 ca sinh vào ngày 29 tháng 2, không sửa lỗi cho phân phối năm nhuận trong dữ liệu, vì không xác định được thời gian chính xác, tôi đi đến xác suất khoảng ~ 0,000648. Giá trị này thấp hơn một chút so với giá trị mà người ta mong đợi được phân phối theo tỷ lệ sinh, và do đó phù hợp với ấn tượng chung được đưa ra bởi biểu đồ.
Tôi sẽ để lại một bài kiểm tra quan trọng về ước tính sơ bộ này cho một người đọc có động lực. Nhưng với điều kiện thứ 29 (mặc dù không được quan tâm - năm 2000 đưa dữ liệu sai lệch trung bình vào dữ liệu) đạt điểm thấp ngay cả đối với các tiêu chuẩn tháng hai đã thấp, tôi cho rằng độ tin cậy tương đối cao có thể bị bác bỏ.
Tôi nghĩ rằng câu trả lời cho câu hỏi này chỉ có thể là kinh nghiệm. Bất kỳ câu trả lời lý thuyết sẽ là thiếu sót nếu không có hiện tượng lựa chọn sinh nhật, tính thời vụ, vv Những điều này là không thể đối phó với lý thuyết.
Dữ liệu sinh nhật khó tìm thấy ở Mỹ vì lý do riêng tư. Có một dữ liệu ẩn danh được đặt ở đây . Đó là từ các ứng dụng bảo hiểm ở Mỹ. Sự khác biệt so với các báo cáo khác, chẳng hạn như một bài báo phổ biến thường được trích dẫn của NYT , là nó liệt kê tần suất sinh theo ngày, thay vì xếp hạng đơn giản các ngày trong một năm. Điểm yếu tất nhiên là sai lệch lấy mẫu, vì nó xuất phát từ bảo hiểm: những người không có bảo hiểm không được bao gồm, v.v.
Theo dữ liệu đã có 325 ca sinh vào ngày 29 tháng 2 trên tổng số 481040. Theo Roy Murphy , các mẫu kéo dài từ năm 1981 đến năm 1994. Nó bao gồm 3 năm nhuận trong tổng số 14 năm. Nếu không có bất kỳ sự điều chỉnh nào, xác suất sẽ là 0,0675% khi sinh vào ngày 29 tháng 2 năm 1981 và 1994.
Tất nhiên, cuộc thảo luận này là trung tâm của Hoa Kỳ. Ai biết các mô hình ở các nước khác là gì.
CẬP NHẬT: Chúng tôi tự động cho rằng OP là lịch Gregorian. Sẽ còn thú vị hơn nữa nếu bạn xem xét các lịch khác nhau như lịch âm Hijri , trong đó những năm nhuận cứ sau 30 năm.
CẬP NHẬT 2:
Amitabh Chandra, Harvard University
Bây giờ, có khả năng như thế nào là những ngày rất đặc biệt trong lịch Gregorian: ngày 1 tháng 1, ngày 25 tháng 12 và Deb 29 sẽ đến ngẫu nhiên như những ngày sinh nhật phổ biến nhất? Tôi nói nó rất khó xảy ra ngẫu nhiên. Do đó, sẽ thú vị hơn nữa khi xem những gì đang diễn ra trong các lịch khác như Hijri.
CẬP NHẬT 3:
CẬP NHẬT 4:
d=[0101 1482
...
1231 1352];
%%
tc = sum(d(:,2)); % total obs
idL = 60; % index of Feb 29
% theor frequency, assuming uniform
ny = 1994 - 1981 + 1; % num of years
nL = 3; % # of leap years: 1984, 1988, 1992
nd = 365*ny + nL; % total # of days
fc = tc/nd; % expected freq for calendar date in sample
td = ones(366,1)*fc*ny; % roll the dates into day of year
td(idL) = fc*nL;
fprintf(1,'non-leap day expected freq: %f\n',td(end))
fprintf(1,'leap day expected freq: %f\n',td(idL))
fprintf(1,'non-leap day average freq: %f\n',mean(d([1:idL-1 idL+1:end],2)))
fprintf(1,'non-leap day freq std dev: %f\n',std(d([1:idL-1 idL+1:end],2)))
fprintf(1,'leap day observed freq: %f\n',d(idL,2))
% plots
bar(d(:,2))
hold on
plot(td,'r')
legend('empirical','theoretical')
title('Distribution of birth dates 1981-1994')
set(gca,'XTick',1:30:366)
set(gca,'XTickLabels',[num2str(floor(d(1:30:366,1)/100)) repmat('/',13,1) num2str(rem(d(1:30:366,1),100))])
grid on
% chi^2 test
[h p]=chi2gof(d(:,2),'Expected',td)
ĐẦU RA:
non-leap day expected freq: 1317.144534
leap day expected freq: 282.245257
non-leap day average freq: 1317.027397
non-leap day freq std dev: 69.960227
leap day observed freq: 325.000000
h =
1
p =
0
Bìa cuốn sách yêu thích của tôi từng cung cấp một số bằng chứng có liên quan cao chống lại giả định phân bổ sinh thường cho đến ngày. Cụ thể, những ca sinh ở Mỹ từ năm 1970 thể hiện một số xu hướng được áp dụng cho nhau: xu hướng dài, nhiều thập kỷ, xu hướng không định kỳ, xu hướng trong tuần, xu hướng ngày, xu hướng ngày lễ (vì các thủ tục như Cesarean phần cho phép một người lên lịch sinh nhật một cách hiệu quả và các bác sĩ thường không làm những việc đó vào các ngày lễ). Kết quả là xác suất sinh vào một ngày được chọn ngẫu nhiên trong một năm là không đồng nhất và vì tỷ lệ sinh thay đổi giữa các năm, nên không phải tất cả các năm đều có khả năng như nhau.
Điều này cũng cung cấp bằng chứng cho thấy giải pháp của Asksal, trong khi một ứng cử viên rất mạnh, cũng không đầy đủ. Một số ít ngày nhuận sẽ bị "ô nhiễm" bởi tất cả các hiệu ứng khi chơi ở đây, vì vậy ước tính của Asksal cũng đang nắm bắt (khá tình cờ) ảnh hưởng của các xu hướng trong tuần và dài hạn cùng với ngày 29 tháng 2 hiệu ứng. Những hiệu ứng nào và không phù hợp để bao gồm không được xác định rõ ràng bằng câu hỏi của bạn.
Và phân tích này chỉ có liên quan đến Hoa Kỳ, nơi có xu hướng nhân khẩu học có thể khá khác biệt với các quốc gia hoặc dân số khác. Tỷ lệ sinh của Nhật Bản đã giảm trong nhiều thập kỷ, ví dụ. Tỷ lệ sinh của Trung Quốc được quy định bởi nhà nước, với một số hậu quả đối với thành phần giới tính của quốc gia và do đó tỷ lệ sinh ở các thế hệ tiếp theo.
Tương tự như vậy, phân tích của Gelman chỉ mô tả vài thập kỷ gần đây và không nhất thiết phải rõ ràng rằng đây thậm chí là thời đại quan tâm đến câu hỏi của bạn.
Đối với những người cảm thấy hào hứng với loại điều này, tài liệu trong trang bìa sẽ được thảo luận ở phần dài trong chương về các quy trình Gaussian.
Ngày 29 tháng 2 là một ngày xảy ra mỗi năm là bội số của 4 .
Tuy nhiên, số năm là bội số của 100 nhưng không phải là một trong số 400, không được coi là năm nhuận (Ví dụ: 1900 không phải là năm nhuận trong khi 2000 hoặc 1600 là). Do đó, ngày nay, nó là mô hình tương tự cứ sau 400 năm.
Vì vậy, hãy làm toán trên một khoảng [0; 400 [ :
Trong khoảng thời gian 400 năm, có chính xác 4 x 25 = 100 năm là bội số của 4 . Nhưng chúng ta phải trừ 3 (bội số của 100 nhưng không phải là 400) từ 100 và chúng ta nhận được 100 - 3 = 97 năm.
Bây giờ chúng ta phải nhân 97 với 366, 97 x 366 = 35502 (số ngày trong một năm nhuận trong khoảng thời gian 400 năm), nó vẫn còn (365 x (400-97)) = 110 595 (số ngày phát sinh ' t trong một năm nhuận trong khoảng thời gian 400 năm).
Sau đó, chúng ta chỉ cần thêm hai số này để biết tổng số ngày trong khoảng thời gian 400 năm: 110 595 + 35502 = 146 097 .
Để kết thúc, xác suất của chúng tôi là số ngày 29 tháng 2 trong khoảng thời gian 400 năm, do đó 97 cho rằng có 97 năm nhuận chia cho tổng số ngày trong khoảng thời gian của chúng tôi:
p = 97/146097 ≈ 0,0006639424492
Hy vọng điều này là đúng và rõ ràng.
Tôi tin rằng có hai câu hỏi được trộn lẫn ở đây. Một là "xác suất của bất kỳ ngày nào là ngày 29 tháng 2?". Điều thứ hai là (và người thực sự đã hỏi) "Xác suất sinh ra vào ngày nhuận là bao nhiêu?"
Tôi đã nhận thấy rằng hầu hết các câu trả lời ở trên đều giải quyết vấn đề này bằng cách tính số ngày nhuận trong một khoảng thời gian cụ thể. Có một cách đơn giản hơn để có câu trả lời, chính xác 100%, theo định nghĩa:
Chúng tôi sử dụng năm nhuận để điều chỉnh lịch (365 ngày) theo năm nhiệt đới trung bình (hay còn gọi là năm mặt trời). Năm nhiệt đới trung bình "là thời gian Mặt trời quay trở lại vị trí tương tự trong chu kỳ của các mùa, như nhìn từ Trái đất" (Wikipedia). Năm nhiệt đới thay đổi một chút, nhưng năm nhiệt đới trung bình (trung bình) là khoảng 365,24667.
Nếu ngày nhuận là chính xác, thì cơ hội của một ngày được chọn ngẫu nhiên là ngày nhuận, là ((năm nhiệt đới) - (không phải năm nhuận)) / năm nhiệt đới
Cắm số gần đúng mà chúng tôi có, đó là (365.24667-365) /365.24667, hoặc 0.24667 / 365.24667, hoặc 675 mỗi triệu (0,0675%).
Điều này, tuy nhiên, là cho một ngày được chọn ngẫu nhiên. Tôi tưởng tượng rằng điều này thực sự bị sai lệch bởi các bậc cha mẹ, những người thà không phải giải thích với con cái họ, "sinh nhật thực tế của bạn chỉ đến một lần trong 4 năm".
Tôi đã hỏi em gái tôi, người có ngày sinh nhật là 29 tháng 2 và cô ấy nói: "Kết quả của nghiên cứu thực nghiệm của riêng tôi là nó là 1,00, rõ ràng."