Có bao nhiêu người Mỹ, được chọn ngẫu nhiên, cần có 50% cơ hội hai người sống ở cùng một tiểu bang hoặc liền kề?


7

Lý lịch

Tôi đang nghiên cứu những sự trùng hợp phổ biến và những sự trùng hợp "gần" mà tuy nhiên (quá mức) gây ấn tượng với người bình thường. Câu hỏi dưới đây là phần mở rộng của vấn đề Sinh nhật nổi tiếng , câu hỏi "Cần bao nhiêu người, được chọn ngẫu nhiên, để có 50% cơ hội hai người trong số họ chia sẻ cùng một ngày sinh nhật?" Câu trả lời là . (Nó thực sự thấp hơn một chút nếu người ta kết hợp thực tế là ngày sinh nhật không được phân phối đồng đều trong suốt cả năm, mà thay vào đó là "co cụm" trong một số tháng nhất định, do đó làm tăng xác suất hai người chia sẻ cùng một ngày sinh nhật.) Nếu một người thư giãn điều kiện và cho phép sự trùng hợp "gần" của cùng một ngày sinh nhật hoặc khác nhau một ngày , câu trả lời giảm xuống chỉ còn ,2314

Dưới đây là phần mở rộng của vấn đề sinh nhật, nhưng thú vị và phức tạp hơn.


Có bao nhiêu người Mỹ, được chọn ngẫu nhiên, cần có 50% cơ hội hai người họ sống ở a) cùng một tiểu bang hoặc b) trong cùng một tiểu bang hoặc một tiểu bang lân cận?

Giả sử chúng tôi được cung cấp một danh sách 50 tiểu bang với dân số của họ:

S={(AL,4.803M),(AK,0.738M),(AR,2.978M),}

cũng như một ma trận kề kề (hoặc đồ thị vô hướng ) chứa thông tin phụ thuộc trạng thái (bao gồm cả tự điều chỉnh), nghĩa là chia sẻ đường viền:Mg

{(CA,CA),(CA,WA),(CA,NV),(CA,AZ),(AK,AK),(ME,NH),} .

Lưu ý rằng chúng tôi muốn giải quyết vấn đề này bằng cách tính toán với xác suất có điều kiện và không cần dùng đến mô phỏng ngẫu nhiên. Một cách tiếp cận nghiêm ngặt như vậy là nguyên tắc và khái quát hóa một cách tự nhiên hơn cho các vấn đề rất lớn.

Cách tiếp cận với a) sẽ là một khái quát về vấn đề Sinh nhật, nhưng câu trả lời cho b) có vẻ phức tạp hơn một chút.

Tôi đang tìm kiếm các phương trình (và giải thích). Sau đó tôi có thể tính toán các giá trị số bằng cách sử dụng dữ liệu điều tra dân số và địa lý.

Tôi sẽ lưu ý ở đây rằng thông qua tìm kiếm ngẫu nhiên, câu trả lời cho b) là một (có lẽ đáng ngạc nhiên) chỉ có 3,5 người. Với 4 người, cơ hội gần 60% ít nhất hai người đến từ cùng một quốc gia hoặc các quốc gia lân cận.


2
Vâng, 3,5 là một kết quả rất đáng ngạc nhiên tôi đã nghĩ rằng nó sẽ là một số nguyên.
Mark L. Stone

Tôi mong đợi câu trả lời là khoảng . Vấn đề sinh nhật dạy chúng ta rằng nó theo thứ tự . Tuy nhiên, các tiểu bang nhỏ hơn sẽ không đóng vai trò nhiều, khiến cho số lượng các bang hiệu quả chỉ khoảng . Hơn nữa, chúng ta chỉ cần xem xét các khối trạng thái tiếp giáp, mà (tùy thuộc vào ý của bạn là "liền kề") có thể đại khái là nhóm trạng thái hoặc hơn. Điều đó khiến chúng ta có khoảng trạng thái "hiệu quả", với căn bậc . 3507255103
whuber

@whuber: "Liền kề" được định nghĩa chặt chẽ: Chia sẻ đường viền.
David G. Cò

3
Cá nhân, nếu tôi cần một câu trả lời chính xác hơn so với tính toán của phong bì, tôi chỉ đơn giản là mô phỏng. Nếu đã có sẵn thông tin về dân số và sự phụ thuộc thì tôi có thể thực hiện một loạt các mô phỏng trước khi tôi tìm thấy bút và giấy của mình để bắt đầu thử viết phương trình cho nó. (Tính toán trùng khớp chính xác là dễ dàng hơn một chút nhưng ngay cả trong trường hợp đó tôi có lẽ chỉ cần mô phỏng thôi)
Glen_b -Reinstate Monica

1
@David Nghe có vẻ nghiêm ngặt, nhưng nó mơ hồ. Nếu biên giới là một nơi tưởng tượng ở giữa đại dương thì sao? Ví dụ, làm Hawaii và Alaska "chia sẻ một biên giới". Điều gì xảy ra nếu "đường viền chung" là một điểm duy nhất, như trong khu vực Four Corners? Khi bạn thực hiện rõ ràng trong bài viết gốc của mình, những chi tiết này không quan trọng đối với cuộc thảo luận hiện tại - nhưng chúng quan trọng đối với bất kỳ tính toán cụ thể nào.
whuber

Câu trả lời:


3

Tôi sẽ trả lời câu hỏi b) bởi vì nó tổng quát hơn và câu hỏi a) chỉ có thể được coi là trường hợp đặc biệt của b) trong đó ma trận kề là đơn giản là ma trận danh tính. Tôi sẽ cung cấp cho bạn phương thức chính xác, mặc dù các phương pháp gần đúng có thể được yêu cầu vì tính toán của giải pháp chính xác quy mô nhanh chóng với số lượng người. Tôi không nghĩ có một giải pháp nào tốt hơn, nhưng có lẽ ai đó có thể sửa cho tôi.

Nó giúp xem xét nó bằng cách thực hiện trường hợp rõ ràng cho một số ít người, thêm nhiều hơn và tìm kiếm mô hình.

Hãy bắt đầu với xác suất của các quốc gia liền kề cho bất kỳ hai người. Xác suất người thứ nhất ở trạng thái và người thứ hai ở trạng thái là trong đó trong đó là số người ở trạng thái vàChúng liền kề nếu trong đó là phần tử thứ thứ của ma trận kề. Do đó, xác suất chúng liền kề là, ij

P(i,j)=pipj,
pl=Sl/N,Sll,N=lSl.Mij=1,Miji,j
P2=i=1kj=1kP(i,j)Mij=2i=1k1j=i+1kpipjMij+i=1kpi2,
trong đó tôi xác định là xác suất có ít nhất một cặp liền kề trong một nhóm người và là số trạng thái. Tôi cũng giả sử rằng tất cả các yếu tố đường chéo của là một. Tuy nhiên, với vấn đề Sinh nhật, sẽ hữu ích hơn khi tìm xác suất để chúng không liền kề, đó là, PmmkM
Q2=1P2=2i=1k1j=i+1kpipj(1Mij).

Hãy nhìn vào nó cho 3Mọi người. Thật dễ dàng để thấy rằng,

Q3=i,j,lpipjpl(1Mij)(1Mil)(1Mjl).
Tuy nhiên, bây giờ cũng dễ dàng để biết lý do tại sao tính toán này có thể trở nên khó hiểu đối với một số lượng lớn người. Những điều trên không thể được bao gồm trong điều khoản củaQ2 bởi vì MilMjl phải xuất hiện trong i,j tổng, vì vậy một quá trình quy nạp mà chúng tôi xác định Qm+1 về mặt Qmdường như được ra khỏi câu hỏi Nó phải được giải quyết rõ ràng cho bất kỳ giá trị. Tuy nhiên, như tôi đã làm với trường hợp2 mọi người, bạn thường có thể lấy "tam giác vuông" phía trên của m- chiều dài của các nhóm người có thể từ các quốc gia loại trừ lẫn nhau, với hệ số thích hợp cho chúng ta biết có bao nhiêu cách có thể xảy ra. Ví dụ, trong trường hợp ba ngườii, jl tất cả đều khác nhau, có 3!=6 những cách mà nhà nước i, jl có thể xuất hiện thông qua ba mẫu.

Dành cho m Mọi người,

Qm=i1=1ki2=1kim=1k(pimj=1m1pijl=j+1m(1Mij,il))=m!i1=1km+1i2=i1+1km+2im=im1+1k(pimj=1m1pijl=j+1m(1Mij,il)).
Dòng thứ hai giảm nó từ một tổng kmcác điều khoản cho một tổng trên các điều khoản, vẫn còn rất kém. Ngoài ra, mỗi thuật ngữ liên quan đến một sản phẩm trên yếu tố. Vì vậy, về tổng thể, đây là một tính toán . Nếu chúng ta bỏ qua kề và trả lời câu hỏi (a) thì nó trở thànhNhưng có lẽ bạn sẽ gặp may mắn và giá trị của mà xác suất đầu tiên vượt quá 50% sẽ rất nhỏ.(km)m(m+1)/2O((km)m2)O((km)m).m

Điều này có vẻ đúng (mặc dù một chút thất vọng trong kết luận của nó). Hãy để tôi xem một lúc cho các câu trả lời tiềm năng khác trước khi đánh giá hoặc chấp nhận .... Cảm ơn!
David G. Cò

0

Có thể giải quyết điều này bằng cách sử dụng Ma trận Markov để mô hình hóa quá trình chọn người ngẫu nhiên. Cách tiếp cận này đòi hỏi khá nhiều nỗ lực để thiết lập nhưng nó có một cách có cấu trúc để có được câu trả lời của bạn.

Ma trận Markov được sử dụng để mô hình hóa một quá trình ngẫu nhiên có thể di chuyển giữa các "trạng thái" riêng biệt (để tránh nhầm lẫn giữa các tiểu bang Hoa Kỳ và các quốc gia markov tôi sẽ gọi các trạng thái markov là "Các giai đoạn").

Trong bối cảnh này, giai đoạn markov là danh sách tất cả các tiểu bang bạn chọn người Mỹ. Ví dụ: nếu người Mỹ đầu tiên đến từ Washington thì giai đoạn là {WA}, thì nếu người Mỹ tiếp theo đến từ Texas thì giai đoạn đó là {TX, WA}. Thứ tự bạn chọn mọi người không liên quan vì vậy {TX, WA} là cùng pha với {WA, TX}.

Trước khi bắt đầu lấy mẫu, chúng tôi bắt đầu trong giai đoạn {0} trong đó không có người Mỹ nào được chọn. Chúng tôi xác định một pha {E} (có nghĩa là "kết thúc") trong đó bạn đã chọn hai người Mỹ từ các quốc gia lân cận, quá trình chọn người Mỹ ngẫu nhiên tiếp tục cho đến khi đạt được {E}. Tiếp tục từ giai đoạn {TX, WA}, nếu người Mỹ tiếp theo đến từ Oregon thì giai đoạn chuyển sang {E} vì Oregon ở bên cạnh Washington.

{E} được gọi là "trạng thái hấp thụ" bởi vì một khi quá trình ngẫu nhiên đạt đến {E}, nó không thể thay đổi sang một pha khác.

Bạn phải tạo một danh sách tất cả các giai đoạn có thể xảy ra trước khi đạt {E}.

Bây giờ bạn cần tính toán ma trận Markov cho xác suất chuyển đổi giữa các trạng thái. Trước hết, gọi là vectơ xác suất lấy mẫu của một người Mỹ từ một tiểu bang. Thì là cơ hội chọn ai đó từ Florida.MPPflorida

Các mục trong ma trận Markov là xác suất chuyển từ pha sang pha . Ví dụ: để chuyển từ {WA} sang {TX, WA} là . Xác suất chuyển từ {WA} sang {E} là . Và xác suất chuyển từ {E} sang {E} là 1.MijijPTexasPWashington+PIdaho+POregon

Bạn luôn bắt đầu lấy mẫu từ {0}. Sau khi 1 người Mỹ đã được lấy mẫu, xác suất ở trong {E} là . Sau khi 2 người Mỹ đã được lấy mẫu thì xác suất ở trong {E} là (Ma trận M được nhân với chính nó và sau đó bạn có được xác suất từ ​​hàng {0 } và cột {E}).M{0}{E}(MM){0}{E}

Tương tự như vậy sau khi 3 người Mỹ đã được lấy mẫu, xác suất xuất hiện trong {E} là . Bạn cần tiếp tục nhân M cho đến khi xác suất ít nhất là 50%(MMM){0}{E}

Phải mất rất nhiều nỗ lực để tìm nhưng một khi bạn đã có nó thì thật đơn giản để có kết quả.M


Cách tiếp cận này có vẻ khó khăn khủng khiếp và quy mô khủng khiếp. Để đảm bảo chúng tôi chấm dứt, chúng tôi có thể cần phải bao gồm các chuỗi gồm 20 "giai đoạn" (tiểu bang Hoa Kỳ), trong đó có 47 nghìn tỷ trình tự. Hoàn toàn không thực tế. Hơn nữa, người ta phải kiểm tra rõ ràng liệu đã đạt được chấm dứt ở mỗi bước. Không có cách nào, gần hơn với giải pháp phân tích của vấn đề Sinh nhật "gần kề", chỉ liên quan đến xác suất và xác suất có điều kiện?
David G. Cò

nếu trong pha {TX, WA}, xác suất chuyển sang {TX, NM} là bao nhiêu, so với chuyển sang {WA, NM}, thì không phải là gì? Tất cả điều đó cần phải được định nghĩa trong định nghĩa không gian trạng thái (pha). Chỉnh sửa: có lẽ @David G. Cò đang tạo ra một điểm tương tự.
Mark L. Stone

@Hugh: Tại sao "Xác suất chuyển từ {WA} sang {E} là "? Chẳng hạn, nếu bạn đã ở {WA}, tại sao xác suất trọng? Và tại sao tổng kết, không phải sản phẩm? PWashington+PIdaho+POregonPWashington
David G. Cò

@ DavidG.Stork Câu hỏi thứ hai của bạn có lẽ là bởi vì đó là những bang giáp ranh với WA và các trận hòa là độc lập, vì vậy nếu chúng ta chọn bất kỳ một trong những trạng thái đó thì chúng ta đã hoàn thành. Nhưng vâng, số lượng các pha Markov ở đây sẽ rất lớn.
Dougal

@ DavidG.Stork Như Dougal nói rằng việc lấy mẫu kết thúc nếu bạn chọn người thứ hai từ một tiểu bang giáp ranh với người đầu tiên (washington) để bạn tổng hợp các xác suất của từng tiểu bang giáp ranh với washington.
Hugh
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.