Bom ở đâu: Làm thế nào để ước tính xác suất, tổng số hàng và cột đã cho?


14

Câu hỏi này được lấy cảm hứng từ một trò chơi nhỏ từ Pokemon Soulsilver:

Hãy tưởng tượng có 15 quả bom được giấu trên khu vực 5x6 này (EDIT: tối đa 1 quả bom / ô):

Tổng

Bây giờ, làm thế nào bạn ước tính xác suất để tìm thấy một quả bom trên một trường cụ thể, với tổng số hàng / cột?

Nếu bạn nhìn vào cột 5 (tổng số bom = 5), thì bạn có thể nghĩ: Trong cột này cơ hội tìm thấy một quả bom ở hàng 2 là gấp đôi cơ hội để tìm thấy một trong hàng 1.

Giả định (sai) này về tỷ lệ trực tiếp, về cơ bản có thể được mô tả là vẽ các hoạt động kiểm tra độc lập tiêu chuẩn (như trong Quảng trường Chi) vào bối cảnh sai, sẽ dẫn đến các ước tính sau:

Quảng trường Chi

Như bạn có thể thấy, tỷ lệ trực tiếp dẫn đến ước tính xác suất trên 100% và thậm chí trước đó, sẽ sai.

Vì vậy, tôi đã thực hiện một mô phỏng tính toán của tất cả các hoán vị có thể dẫn đến 276 khả năng duy nhất là đặt 15 quả bom. (tổng số hàng và cột đã cho)

Đây là mức trung bình trên 276 giải pháp: Giải pháp tính toán

Đây là giải pháp chính xác, nhưng do công việc tính toán theo cấp số nhân, tôi muốn tìm một phương pháp ước lượng.

Câu hỏi của tôi là: Có một phương pháp thống kê được thiết lập để ước tính điều này? Tôi đã tự hỏi nếu đây là một vấn đề được biết đến, nó được gọi như thế nào và nếu có giấy tờ / trang web bạn có thể đề nghị!


1
Cách tiếp cận nhanh chóng và dễ dàng: Đối với số lượng hàng & cột cao hơn, bạn có thể tiến hành mô phỏng Monte Carlo, nơi bạn sẽ kiểm tra mẫu phụ ngẫu nhiên của các cấu hình có thể thấp hơn sau đó tổng số khả năng. Nó sẽ cung cấp cho bạn một giải pháp gần đúng.
Tim

1
Tôi không hiểu giải pháp tính toán của bạn. Các số trong các tế bào là gì? Họ chắc chắn không thêm tới 100%, đó không phải là PMF. Chúng cũng không giống CDF, ô bên phải / dưới không phải là 100%
Aksakal

2
@Aksakal Đây là những xác suất cận biên mà bất kỳ tế bào nào cũng có chứa bom. Các con số thêm vào 15, số lượng bom tổng cộng trên bảng.
Dougal

2
Nếu bạn giả sử hai lề là độc lập thì việc lấy mẫu từ phân phối bảng có điều kiện trên lề (thông qua thuật toán của Patefield) là tương đối đơn giản. Điều này được thực hiện trong phân phối chuẩn của R trong r2dtable(và cũng được sử dụng bởi chisq.testfisher.testtrong một số trường hợp).
Glen_b -Reinstate Monica

2
@Glen_b Nhưng trong thuật toán Patefield, số lượng sự kiện trên mỗi ô không giới hạn ở một.
Jarle Tufto

Câu trả lời:


3

Không gian giải pháp (cấu hình bom hợp lệ) có thể được xem như tập hợp các biểu đồ lưỡng cực với trình tự mức độ nhất định. (Lưới là ma trận biadjacency.) Tạo phân phối đồng đều trên không gian đó có thể được tiếp cận bằng phương pháp Markov Chain Monte Carlo (MCMC): mọi giải pháp có thể được lấy từ bất kỳ phương thức nào khác bằng cách sử dụng chuỗi "công tắc", trong công thức câu đố của bạn trông giống như:

(xx)(xx)

Nó đã được chứng minh rằng điều này có một tính chất trộn nhanh. Vì vậy, bắt đầu với bất kỳ cấu hình hợp lệ nào và thiết lập MCMC hoạt động trong một thời gian, bạn nên kết thúc với một xấp xỉ phân phối thống nhất trên các giải pháp, mà bạn có thể tính trung bình theo chiều cho các xác suất bạn đang tìm kiếm.

Tôi chỉ mơ hồ quen thuộc với các phương pháp này và các khía cạnh tính toán của chúng, nhưng ít nhất theo cách này bạn tránh được việc liệt kê bất kỳ giải pháp phi giải pháp nào.

Bắt đầu với tài liệu về chủ đề này:
https://facemony.math.illinois.edu/~mlavrov/seminar/2018-erdos.pdf
https://arxiv.org/pdf/1701.07101.pdf
https: // www. tandfonline.com/doi/abs/10.1198/016214504000001303


Đó là một ý tưởng tuyệt vời! Tôi nghĩ rằng tôi nhận được nó! Tôi trộn qua bất kỳ giải pháp đã biết nào cho một số lần lặp xác định (mà tôi dự kiến ​​sẽ tìm thấy trong các bài báo) và sau đó trung bình trên các giải pháp duy nhất, hy vọng hầu hết chúng được tìm thấy. Cám ơn rất nhiều!
KaPy3141

2
MCMC chính xác là con đường để đi và tôi cũng tìm thấy điều này: arxiv.org/pdf/1904.03836.pdf
KaPy3141

@ KaPy3141 Đối với các tổng hàng và cột ở trên, việc tôi thực hiện thuật toán vòng lặp hình chữ nhật (trong bản in sẵn arxiv) chỉ truy cập 276 trạng thái duy nhất ngay cả khi tôi chạy thuật toán cho tới lần lặp. 106
Jarle Tufto

Điều này cho thấy việc liệt kê theo đề xuất của @Aksakal có thể hiệu quả hơn.
Jarle Tufto

@JarleTufto, nhưng OP cho biết chỉ có 276 trạng thái duy nhất (hợp lệ); bạn đã tìm thấy tất cả!
Ben Reiniger

5

Không có giải pháp duy nhất

Tôi không nghĩ rằng phân phối xác suất rời rạc thực sự có thể được phục hồi, trừ khi bạn đưa ra một số giả định bổ sung. Tình hình của bạn về cơ bản là một vấn đề phục hồi phân phối chung từ lề. Nó đôi khi được giải quyết bằng cách sử dụng copulas trong ngành công nghiệp, quản lý rủi ro tài chính ví dụ, nhưng thường cho các bản phân phối liên tục.

Hiện diện, độc lập, AS 205

Trong vấn đề hiện diện, không có nhiều hơn một quả bom được cho phép trong một tế bào. Một lần nữa, đối với trường hợp độc lập đặc biệt, có giải pháp tính toán tương đối hiệu quả.

Nếu bạn biết FORTRAN, bạn có thể sử dụng mã này thực hiện Thuật toán AS 205: Ian Saunders, Thuật toán AS 205: Bảng liệt kê các bảng R x C với Tổng số hàng lặp lại, Thống kê được áp dụng, Tập 33, Số 3, 1984, trang 340-352. Nó liên quan đến thuật toán của Panefield mà @Glen_B đã đề cập.

Thuật toán này liệt kê tất cả các bảng hiện diện, tức là đi qua tất cả các bảng có thể có chỉ một quả bom trên một cánh đồng. Nó cũng tính toán bội số, tức là nhiều bảng trông giống nhau và tính toán một số xác suất (không phải những bảng bạn quan tâm). Với thuật toán này, bạn có thể chạy bảng liệt kê đầy đủ nhanh hơn trước đây.

Hiện diện, không độc lập

Thuật toán AS 205 có thể được áp dụng cho trường hợp các hàng và cột không độc lập. Trong trường hợp này, bạn phải áp dụng các trọng số khác nhau cho mỗi bảng được tạo bởi logic liệt kê. Trọng lượng sẽ phụ thuộc vào quá trình đặt bom.

Đếm, độc lập

Tất nhiên, vấn đề đếm cho phép nhiều quả bom được đặt trong một tế bào. Trường hợp đặc biệt của các hàng và cột độc lập của bài toán đếm rất dễ: Pij=Pi×Pj trong đó PiPj là lề của các hàng và cột. Ví dụ, hàng P6=3/15=0.2 và cột P3=3/15=0.2 , do đó xác suất mà một quả bom ở hàng 6 và cột 3 làP63=0.04 . Bạn thực sự sản xuất phân phối này trong bảng đầu tiên của bạn.

Đếm, Không độc lập, Các bản sao rời rạc

Để giải quyết vấn đề đếm, trong đó các hàng và cột không độc lập, chúng tôi có thể áp dụng các công thức riêng biệt. Họ có vấn đề: chúng không phải là duy nhất. Nó không làm cho họ vô dụng mặc dù. Vì vậy, tôi sẽ thử áp dụng các công thức riêng biệt. Bạn có thể tìm thấy một cái nhìn tổng quan về chúng trong Genest, C. và J. Nešlehová (2007). Một mồi trên các công thức cho dữ liệu đếm. Bò đực giống. 37 (2), 475 Tua515.

Các bản sao có thể đặc biệt hữu ích, vì chúng thường cho phép gây ra sự phụ thuộc một cách rõ ràng hoặc để ước tính nó từ dữ liệu khi dữ liệu có sẵn. Ý tôi là sự phụ thuộc của hàng và cột khi đặt bom. Ví dụ, đó có thể là trường hợp nếu quả bom là một hàng đầu tiên, thì nhiều khả năng nó cũng sẽ là một cột đầu tiên.

Thí dụ

Hãy áp dụng copula Kimeldorf và Sampson vào dữ liệu của bạn, giả sử một lần nữa rằng có thể đặt nhiều quả bom trong một tế bào. Các copula cho một tham số phụ thuộc θ được định nghĩa là:

C(u,v)=(uθ+uθ1)1/θ
Bạn có thể nghĩ θ là một tương tự của hệ số tương quan.

Độc lập

θ=0.000001

nhập mô tả hình ảnh ở đây

Bạn có thể thấy làm thế nào trong cột 5, xác suất hàng thứ hai có xác suất cao hơn hai lần so với hàng đầu tiên. Điều này không sai trái với những gì bạn dường như ngụ ý trong câu hỏi của bạn. Tất cả các xác suất làm tăng thêm tới 100%, tất nhiên, cũng như các lề trên các bảng khớp với tần số. Chẳng hạn, cột 5 ở bảng dưới hiển thị 1/3 tương ứng với 5 quả bom đã nêu trong tổng số 15 quả như mong đợi.

Tương quan tích cực

θ=10

nhập mô tả hình ảnh ở đây

Tương quan phủ định

θ=0.2

nhập mô tả hình ảnh ở đây

Tất nhiên, bạn có thể thấy rằng tất cả các xác suất đều tăng tới 100%. Ngoài ra, bạn có thể thấy mức độ phụ thuộc tác động đến hình dạng của PMF. Đối với sự phụ thuộc tích cực (tương quan), bạn có được PMF cao nhất tập trung vào đường chéo, trong khi đối với sự phụ thuộc tiêu cực thì nó nằm ngoài đường chéo


Cảm ơn rất nhiều cho câu trả lời của bạn và các liên kết thú vị của bạn đến các công thức! Thật không may, tôi chưa bao giờ sử dụng các công thức, vì vậy tôi sẽ khó tìm được giải pháp chỉ thi hành 1 quả bom cho mỗi tế bào, nhưng tôi chắc chắn sẽ thử một khi tôi hiểu rõ hơn!
KaPy3141

@ KaPy3141, tôi đã thêm tham chiếu đến mã mà bạn có thể sử dụng để giải quyết vấn đề. Đó là trong F90, nhưng tương đối đơn giản để chuyển đổi sang Python với numpy
Aksakal

θθ

Bạn sẽ phải điều chỉnh các tham số cho quy trình. Vấn đề là tổ hợp thuần túy nếu quá trình tạo phù hợp với nó.
Aksakal

4

Câu hỏi của bạn không làm rõ điều này, nhưng tôi sẽ giả định rằng các quả bom ban đầu được phân phối thông qua lấy mẫu ngẫu nhiên đơn giản mà không thay thế các ô (vì vậy một ô có thể chứa nhiều hơn một quả bom). Câu hỏi bạn đưa ra về cơ bản là yêu cầu phát triển phương pháp ước tính cho phân phối xác suất có thể được tính toán chính xác (theo lý thuyết), nhưng trở nên không thể tính toán được để tính toán cho các giá trị tham số lớn.


Giải pháp chính xác tồn tại, nhưng nó rất chuyên sâu về mặt tính toán

n×mb

x=(x1,...,xnm)s=(r1,...,rn,c1,...,cm)S:xs, ánh xạ từ vectơ phân bổ đến tổng hàng và cột.

P(x)1

P(x|s)=P(x,s)P(s)=P(x)I(S(x)=s)xP(x)I(S(x)=s)=I(S(x)=s)xI(S(x)=s)=1|Xs|I(S(x)=s)=U(x|Xs),

Xs{x{0,1}nm|S(x)=s}sx|sU(Xs). Nghĩa là, phân phối có điều kiện của vectơ phân bổ cho các quả bom là thống nhất trên tập hợp tất cả các vectơ phân bổ tương thích với tổng số hàng và cột quan sát được. Xác suất cận biên của một quả bom trong một tế bào nhất định sau đó có thể đạt được bằng cách đặt lề trên phân phối chung này:

P(xij=1|s)=x:xij=1U(x|Xs)=|XijXs||Xs|.

Xij{x{0,1}nm|xij=1}ijXs|Xs|=276Xsnmb


Tìm kiếm các phương pháp ước lượng tốt

Trong trường hợp không thể tính toán tập hợp XS, bạn muốn có thể ước tính xác suất cận biên của một quả bom trong bất kỳ ô cụ thể nào. Tôi không biết về bất kỳ nghiên cứu hiện tại nào đưa ra các phương pháp ước tính cho vấn đề này, vì vậy điều này sẽ yêu cầu bạn phát triển một số công cụ ước tính hợp lý và sau đó kiểm tra hiệu suất của chúng đối với giải pháp chính xác bằng cách sử dụng mô phỏng máy tính cho các giá trị tham số đủ thấp để điều này có tính khả thi

Công cụ ước tính thực nghiệm ngây thơ: Công cụ ước tính bạn đã đề xuất và sử dụng trong bảng màu xanh lá cây của bạn là:

P^(xTôij= =1|S)= =rTôibcjbb= =rTôicjb.

Phương pháp ước tính này coi các hàng và cột là độc lập và ước tính xác suất của một quả bom trong một hàng / cột cụ thể theo tần số tương đối trong tổng của hàng và cột. Thật đơn giản để thiết lập rằng công cụ ước tính này tính tổngbtrên tất cả các tế bào, như bạn muốn. Thật không may, nó có một nhược điểm lớn là nó có thể mang lại xác suất ước tính trên một trong một số trường hợp. Đó là một tài sản xấu cho một người ước tính.


Cảm ơn rất nhiều cho câu trả lời sâu sắc của bạn! Trên thực tế, trong biểu đồ màu xanh lá cây của tôi, đã có các giá trị lên tới 133%. Thật tốt khi biết rằng không có phương pháp phổ biến nào cho vấn đề này và có thể chấp nhận thử nghiệm cho chính mình! Công cụ ước tính chính xác nhất của tôi tương tự như cách tiếp cận "xanh", nhưng thay vì phân bổ các quả bom tỷ lệ với P (hàng) / sum (P (hàng)) * P (c) / sum (P (cols)), tôi sử dụng một tưởng tượng P (r) / (1-P (r)) / sum (hàng) và sau đó mang sản phẩm trở lại: P (real) = P (hình ảnh) / (1 + P (hình ảnh). Điều này buộc P <1. Bây giờ tôi đoán, tôi chỉ cần thực thi một cách tính toán các khoản tiền hàng / cột (hơi vi phạm).
KaPy3141

@ KaPy3141 bạn có thể sử dụng giá trị của một quả bom cụ thể trong một ô (không có vấn đề ở trên 1) và sau đó mô tả vấn đề là rút 15 quả bom ra khỏi phân phối đó với điều kiện mỗi ô chỉ có giá trị 0 hoặc 1 (bản vẽ không thay thế). Điều này sẽ cung cấp cho bạn xác suất không vượt quá 1.
Sextus Empiricus
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.