Xác suất của năm đứa trẻ trong cùng một lớp có cùng tên

Trên các diễn đàn đặt tên cho em bé, các bậc cha mẹ tương lai lặp lại một số phiên bản Fear of Jennifer của họ mọi lúc: "Tôi không muốn con tôi trở thành một trong 5 người trong lớp với tên của mình." Điều quan trọng là, không có cái tên nào thậm chí gần với mức độ phổ biến đó nữa, và thậm chí ở đỉnh cao của cơn sốt Jennifer, bạn đã không có được năm người trong số họ trong một lớp. Tôi muốn một số câu trả lời cho các bậc cha mẹ này về việc việc lặp lại tên như vậy sẽ khó xảy ra như thế nào.

Sử dụng dữ liệu tên em bé rộng rãi của Cơ quan An sinh Xã hội ( https://www.ssa.gov/oact/babynames/limits.html ), ai đó có thể cho tôi biết cách tìm ra cơ hội của một lớp học tiểu học ở Hoa Kỳ có năm Con cùng tên? (Để đơn giản, bởi "cùng tên" Tôi có nghĩa là cùng một cách viết và "lớp học", ý tôi là tất cả những đứa trẻ được sinh ra trong cùng một năm.) Tôi không chỉ định quy mô lớp học, nhưng chắc chắn phải lớn hơn 4 . :-)

probability combinatorics

— JPmiaou
nguồn

Bài viết về tên em bé là một chủ đề định kỳ trên blog của Andrew Gelman. Trong bất kỳ bài viết nào tôi tìm thấy trên trang web của anh ấy, anh ấy sẽ thảo luận về câu hỏi cụ thể của bạn. Anh ta có liên kết đến một "blog tên em bé" nơi bạn có thể gặp nhiều may mắn hơn khi nhận được câu trả lời. andrewgelman.com/2005/09/07/baby_name_blog

— Mike Hunter

Tôi nghĩ rằng bạn có thể kết hợp một cái gì đó lại với nhau bằng cách sử dụng phân phối đa quốc gia với xác suất thành công của việc nói, hai mươi tên đầu tiên được trích xuất từ dữ liệu điều tra dân số như thế này .

— Antoni Parellada

SSA có cung cấp dữ liệu về số trẻ em sinh ra có tên không? Tôi chỉ tìm thông tin về các cấp bậc rõ ràng loại bỏ một số thông tin hữu ích.

— Sycorax nói Phục hồi lại

@AntoniParellada Tôi nghĩ rằng thực tế của tình huống thậm chí còn tinh tế hơn: vì hệ thống trường học ở Mỹ bị phân biệt cao bởi thu nhập và chủng tộc, tôi nghĩ rằng số liệu thống kê quốc gia sẽ có sự tương ứng kém với các lớp học thực tế.

— Sycorax nói Phục hồi lại

Khi tôi còn là học sinh tại một trường tiểu học (nhỏ), chúng tôi có ba John trong một lớp rất nhỏ (tôi nghĩ con trai và con gái kết hợp chỉ khoảng 14). Một năm chúng tôi kết hợp với năm trên để tạo ra một lớp học đầy đủ ... và có được một John thứ tư. Bây giờ John đã được phổ biến khá rồi nhưng không phải tất cả mà thông thường. (Về vấn đề ban đầu, ba sẽ khó chịu như năm). Cơ hội của một tên cụ thể được nhân đôi nhiều lần sẽ rất thấp, nhưng khả năng một số tên xuất hiện nhiều lần sẽ cao hơn nhiều.

— Glen_b -Reinstate Monica

Câu trả lời:

Tất cả dữ liệu có thể được tìm thấy ở đây . Mỗi giá trị trong bảng biểu thị xác suất đưa ra mẫu 25 người từ vị trí đó và năm sinh, 5 người trong số họ sẽ chia sẻ tên.

Phương pháp : Tôi đã sử dụng tệp Binomial PDF trên mỗi tên để tìm xác suất để bất kỳ lớp 25 người nào được cung cấp sẽ có 5 người chia sẻ tên:

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

P_{n} (5 + k i d s s h a r e n a m e) = \sum_{\forall n a m e s} \sum_{k = 5}^{n} (\binom{n}{k}) p_{i}^{k} (1 - p_{i})^{n - k}

$P_n(5+\ kids\ share\ name) = \sum_{\forall\ names}\sum_{k=5}^n{n \choose k}p_i^k(1-p_i)^{n-k}$

Ví dụ: nếu có 4.000.000 trẻ em và 21.393 Emily, thì xác suất có 5 Emily trong bất kỳ lớp học nào có 25 học sinh là Binomial (25, 5, 0,0053) = 0,0000002. Tóm tắt tất cả các tên không đưa ra câu trả lời chính xác, bởi vì theo Nguyên tắc Bao gồm / Loại trừ , chúng tôi cũng phải tính đến khả năng có nhiều nhóm 5 người chia sẻ tên. Tuy nhiên, vì các xác suất này dành cho tất cả các mục đích thực tế gần như bằng không, tôi đã cho rằng chúng không đáng kể và do đó . $P(\bigcup A_i) \approx \sum P(A_i)$

Cập nhật: Như nhiều người đã chỉ ra, có sự khác biệt đáng kể theo thời gian và giữa các quốc gia. Vì vậy, tôi đã chạy cùng một chương trình, trên cơ sở NHÀ NƯỚC THEO NHÀ NƯỚC, và theo thời gian. Dưới đây là kết quả (xác suất toàn quốc là màu đỏ, các quốc gia riêng lẻ có màu đen):

Thật thú vị, Vermont (tiểu bang nhà tôi) luôn là một trong những nơi có khả năng nhất xảy ra trong nhiều thập kỷ qua.

— David C
nguồn

Bất kỳ cơ hội nào bạn có thể giải thích làm thế nào bạn có được những con số này? Bạn không cần phải câm lặng nó nhiều - tôi có bằng cử nhân toán học và tôi biết nơi để tìm kiếm công cụ - nhưng tôi thực sự muốn biết loại lý do thực sự dẫn đến xác suất (thay vào đó của những tiếng thở dài nản chí).

— JPmiaou

Điều này giả định rằng các tên được đưa ra ngẫu nhiên với cùng xác suất , điều đơn giản là không đúng . Ngoài ra kinh nghiệm thực tế cho thấy rằng có nhiều lớp hơn với những đứa trẻ có cùng tên sau đó 1 trên 200!

— Tim

Tôi nhận được kết quả hơi khác nhau, nhưng họ gần. Tuy nhiên, điều này không đáng để thảo luận, bởi vì sự thay đổi theo địa lý và thời gian trong kết quả là rất lớn. Câu trả lời đã thay đổi theo hai bậc độ lớn kể từ năm 1910 và thay đổi theo thứ tự độ lớn giữa các quốc gia. Vì hầu như không có lớp học tiểu học nào được rút ra từ toàn bộ Hoa Kỳ, nên mô hình lựa chọn ngẫu nhiên từ danh sách tên quốc gia là không phù hợp.

— whuber

(1) Nhìn vào những năm khác trong tập tin quốc gia bạn đã tải xuống. (2) Nhìn vào các tập tin trạng thái có sẵn trên cùng một trang.

— whuber

Đúng, đồ thị xác suất theo thời gian là rất lớn: nó bắt đầu giảm mạnh vào năm 1980. Nhưng sự thay đổi trạng thái thực sự rất lớn, như người ta mong đợi: tên thay đổi theo địa lý và chúng tập trung mạnh mẽ theo sắc tộc, thu nhập và các yếu tố nhân khẩu học khác. (+1 cho cuộc điều tra mở rộng của bạn về biến thể trạng thái và thời gian, BTW.)

— whuber

vui lòng xem tập lệnh Python sau cho Python2.

Câu trả lời được lấy cảm hứng từ câu trả lời của David C.

Câu trả lời cuối cùng của tôi sẽ là, xác suất tìm thấy ít nhất năm Jacob trong một lớp, với Jacob là tên có thể xảy ra nhất theo dữ liệu từ https://www.ssa.gov/oact/babynames/limits.html "Dữ liệu quốc gia "Từ năm 2006.

Xác suất được tính theo phân phối nhị thức với Jacob-Xác suất là xác suất thành công.

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

Tối đa xác suất cho ít nhất năm đứa trẻ có cùng tên trong số 25: 4.7e-07 cho tên Jacob

Tối đa xác suất cho ít nhất năm đứa trẻ có cùng tên trong số 50: 1.6e-05 cho tên Jacob, tất nhiên.

Tối đa xác suất cho ít nhất năm đứa trẻ có cùng tên trong số 100: 0,00045 cho tên Jacob, tất nhiên.

Theo hệ số 10 kết quả tương tự như David C. Cảm ơn. (Câu trả lời của tôi không tổng hợp tất cả các tên, có thể được thảo luận)

— feinmann
nguồn

Câu trả lời này không xuất hiện để giải quyết các vấn đề về các cơ hội mà một số tên xuất hiện năm hoặc nhiều lần trong một lớp học.

— whuber

@feinmann Tôi tin rằng việc tính tổng trên tất cả các tên là phù hợp vì xác suất có hai hoặc nhiều bộ 5 người có cùng tên trong một lớp là gần như bằng 0 và không đáng kể cho tất cả các mục đích thực tế. Đó là, theo Nguyên tắc Bao gồm / Loại trừ , nếu chúng ta bỏ qua khả năng này, thì

P (⋃ A_{i}) \approx \sum P (A_{i})

$P(\bigcup A_i) \approx \sum P(A_i)$

— David C

Không, bạn chưa trả lời câu hỏi khi bạn vừa đặt câu hỏi. Các cơ hội mà một số tên sẽ xuất hiện năm hoặc nhiều lần là nhiều hơn cơ hội tối đa mà một đưa tên sẽ xuất hiện năm hoặc nhiều lần.

— whuber

Như @whuber chỉ ra, "5 Jacobs" là một đối số yếu hơn so với "5 tên nào đó", nhưng dù sao nó cũng có thể hữu ích trong các cuộc thảo luận về tên bé: "Đây là xác suất của năm đứa trẻ có tên phổ biến nhất. sử dụng tên phổ biến nhất, do đó xác suất của bạn thậm chí còn ít hơn. "

— JPmiaou

Điều đó không chính xác , bởi vì các khả năng không loại trừ lẫn nhau: bạn có thể có 5 Thomas trở lên và 5 hoặc nhiều hơn Richards ( và thậm chí 5 hoặc nhiều Henry hơn) trong một lớp. Vì vậy, nó là một giới hạn trên. @DavidC lập luận trong một bình luận ở đây rằng những sự kiện như vậy có xác suất không đáng kể.

— Scortchi - Phục hồi Monica