Có tồn tại bất kỳ phân phối đơn biến mà chúng tôi không thể lấy mẫu từ?


12

Chúng tôi có rất nhiều phương pháp để tạo ngẫu nhiên từ các phân phối đơn biến (biến đổi nghịch đảo, từ chối chấp nhận, Metropolis-Hastings, v.v.) và dường như chúng tôi có thể lấy mẫu từ bất kỳ phân phối hợp lệ nào - điều đó có đúng không?

Bạn có thể cung cấp bất kỳ ví dụ về phân phối đơn biến mà không thể tạo ngẫu nhiên từ không? Tôi đoán ví dụ đó là không thể tồn tại (?), Vì vậy, giả sử rằng "không thể", chúng tôi cũng có nghĩa là các trường hợp rất tốn kém về mặt tính toán, ví dụ như cần mô phỏng vũ lực như vẽ một lượng lớn mẫu để chấp nhận vài trong số họ.

Nếu ví dụ như vậy không tồn tại, chúng ta thực sự có thể chứng minh rằng chúng ta có thể tạo ra các lần rút ngẫu nhiên từ bất kỳ phân phối hợp lệ nào không? Tôi chỉ đơn giản là tò mò nếu có tồn tại ví dụ cho việc này.


6
Nó thực sự phụ thuộc vào ý của bạn bởi "không thể / không thể", tôi nghĩ vậy. Ví dụ, có những trường hợp khi cdf và pdf rất tốn kém để đánh giá, điều này sẽ khiến hầu hết các phương pháp bị cấm và không khó để đưa ra các hình dạng phân phối trong đó giới hạn phong bì tốt trên pdf (để từ chối chấp nhận rằng chủ yếu là tránh đánh giá chức năng) không có sẵn. Vì vậy, nó sẽ thất bại trong trường hợp bạn đã loại trừ và chúng tôi có thể khiến F thậm chí còn đắt hơn (tính theo trung bình), tính toán hơn so với sử dụng từ chối chấp nhận (sẽ loại trừ việc cố gắng sử dụng phép đảo ngược số của cdf)
Glen_b -Reinstate Monica

3
Chúng ta không thể vẽ các mẫu ngẫu nhiên thống nhất từ ​​tập hợp các số vô tỷ trên khoảng (0,1) bằng máy tính. Bằng chứng được để lại như một bài tập cho người đọc.
Vách đá AB

2
@Cliff AB Điều này có thể được xử lý bằng số học khoảng. Xác định một khoảng (nhỏ nhất) xung quanh mỗi điểm có thể đánh giá (hợp lý) của máy tính sao cho toàn bộ [0,1] được bao phủ bởi các khoảng này. Đối với mỗi máy tính có thể đánh giá "thống nhất" được vẽ, hãy đánh giá t (với làm tròn ra bên ngoài) rhe khoảng nghịch đảo của hàm phân phối tích lũy trên đối số khoảng này. Điều đó sẽ tạo ra một mẫu khoảng của biến ngẫu nhiên, được đảm bảo 100% để chứa mẫu thực.
Mark L. Stone

2
Những gì tôi đang nhận được là vì bạn đã tính đủ từ chối không hiệu quả là "không thể", nếu bạn làm cho nó đủ đắt để bất kỳ cách tiếp cận nào khác mà bạn biết là tồi tệ hơn (yêu cầu tính toán nhiều hơn), bạn cũng có thể coi đó là "không thể". Xây dựng các F và f đắt tiền để đánh giá không khó, và làm cho chúng sao cho những cách rõ ràng để tránh thực sự tính toán phần lớn thời gian cũng có vẻ không hiệu quả ,,, ctd
Glen_b -Reinstate Monica

1
ctd ... (nhưng nói chung, mọi người khá khéo léo, vì vậy một ngày có vẻ rất khó có thể khả thi nếu bạn nghĩ ra một ý tưởng hay, giải quyết được hầu hết vấn đề). Nếu chúng ta nói "gần đúng với độ chính xác như vậy là tốt" thì nhiều trong số những khó khăn này có thể được giải quyết trong nhiều trường hợp (ví dụ, người ta có thể xây dựng các bảng tra cứu / tạo biểu đồ lớn từ biểu đồ hầu hết thời gian bạn tạo ra các giá trị gần đúng một cách hợp lý nhanh chóng).
Glen_b -Reinstate Monica

Câu trả lời:


15

Nếu bạn biết hàm phân phối tích lũy, , thì bạn có thể đảo ngược hàm đó, cho dù là phân tích hay bằng số và sử dụng phương pháp lấy mẫu biến đổi nghịch đảo để tạo các mẫu ngẫu nhiên https://en.wikipedia.org/wiki/Inverse_transform_sampling .F(x)

Xác định . Điều này sẽ xử lý bất kỳ phân phối, cho dù liên tục, rời rạc, hoặc bất kỳ sự kết hợp. Điều này luôn có thể được giải quyết bằng số, và có lẽ là phân tích. Đặt U là một mẫu từ một biến ngẫu nhiên được phân phối là Đồng nhất [0,1], nghĩa là từ một bộ tạo số ngẫu nhiên [0,1] thống nhất. Thì F - 1 ( U ) , được định nghĩa như trên, là một mẫu ngẫu nhiên từ một biến ngẫu nhiên có phân phối F ( x ) . F1(y)=inf(x:F(x)y)F1(U)F(x)

Đây có thể không phải là cách nhanh nhất để tạo các mẫu ngẫu nhiên, nhưng đó là một cách, giả sử rằng F (x) được biết đến.

Nếu F (x) không được biết đến, thì đó là một câu chuyện khác.


2
Nếu không được biết, thì điều gì đã biết? Rõ ràng điều đó có liên quan. Nếu bạn không biết gì, bạn sẽ không thể làm gì. Nếu bạn biết điều gì đó, thì điều đó phụ thuộc vào điều đó là gì.F(x
Mark L. Stone

@Tim Trên thực tế, điều khá phổ biến là chúng ta không biết F (X), nhưng chúng ta có thể tạo mẫu từ nó. Đó là một kịch bản điển hình trong mô phỏng Monte Carlo (stochastic).
Mark L. Stone

@Tim: Nếu bạn không quan tâm đến câu chuyện này, bạn không rõ câu chuyện nào bạn quan tâm. Đáp lại bình luận của Glen_b, bạn nói rằng bạn không quan tâm đến việc lấy mẫu không hiệu quả. Phương pháp này, mặc dù không hiệu quả, sẽ cho phép bạn lấy mẫu từ bất kỳ pdf nào (giả sử nó không quá tệ khi tích hợp số không thành công, nhưng tôi không nghĩ có ai quan tâm đến việc sử dụng các bản phân phối như vậy). Vì vậy, trừ khi bạn quan tâm, giả sử, các bản phân phối không liên tục tại một số lượng vô hạn các địa điểm, đây sẽ là câu trả lời cho câu hỏi của bạn: có, chúng tôi có thể.
Vách đá AB

Trên thực tế, nếu được biết nhưng không phải F - 1 , đây là một vấn đề. FF1
Tây An

1
Nó phụ thuộc vào những gì bạn có nghĩa là vấn đề. Nếu được biết đến, sau đó mỗi câu trả lời của tôi, F - 1 ( y ) = i n f ( x : F ( x ) y ) luôn luôn là rõ ràng và có thể được giải quyết bằng số. Nó có thể không nhanh như bạn muốn, vì vậy nếu đó là vấn đề của bạn, ok Nếu đó không phải là ý bạn, thì vấn đề là gì? FF1(y)=inf(x:F(x)y)
Mark L. Stone

7

Khi một phân phối chỉ được xác định bởi chức năng của nó tạo ra khoảnh khắc hoặc bằng chức năng đặc trưng của nó Φ ( t ) = E [ exp { i t X } ] , nó là hiếm để tìm cách tạo ra từ những phân phối đó.ϕ(t)=E[exp{tX}]Φ(t)=E[exp{itX}]

Một ví dụ có liên quan được tạo từ các phân phối ổn định α , không có dạng đã biết về mật độ hoặc cdf, không có hàm tạo mô men, mà là hàm đặc trưng dạng đóng.

Trong thống kê Bayes, các bản phân phối sau liên quan đến khả năng có thể thu được hoặc đơn giản là các bộ dữ liệu quá lớn để phù hợp với một máy tính có thể được xem là không thể mô phỏng (chính xác).


Nếu bạn chỉ biết chức năng tạo khoảnh khắc, bạn có thể sử dụng xấp xỉ yên ngựa và sau đó mô phỏng từ đó.
kjetil b halvorsen

1
@ Xi'an Bạn bỏ từ "hiệu quả". Trong trường hợp xấu nhất, bạn có thể đảo ngược số lượng của phép biến đổi số. Điều đó sẽ làm công việc, có thể không "hiệu quả", nhưng nó sẽ làm điều đó.
Mark L. Stone

3
@kjetilbhalvorsen: xấp xỉ yên ngựa là giải pháp được đề xuất trong liên kết tôi đặt. Nhưng đó là một xấp xỉ!
Tây An

2

Giả sử bạn đề cập đến phân phối liên tục. Bằng việc sử dụng không thể thiếu khả năng chuyển đổi , bạn có thể mô phỏng từ bất kỳ phân phối đơn biến bằng cách mô phỏng u ~ ( 0 , 1 ) và sau đó dùng F - 1 ( u ) . Vì vậy, chúng ta có thể mô phỏng một bộ đồng phục, sau đó phần đó được thực hiện. Điều duy nhất có thể loại trừ mô phỏng từ F là bạn không thể tính toán nghịch đảo F - 1 của nó , nhưng điều này phải liên quan đến những khó khăn tính toán, hơn là một cái gì đó về mặt lý thuyết.Fu(0,1)F1(u)FF1


1

Bây giờ câu hỏi của bạn phát triển thành "khó mẫu từ", chỉ cần mang bất kỳ mô hình với một khả năng khó , chuyển nhượng một phân phối trước khi mô hình thông số , và giả sử rằng bạn quan tâm trong phân phối phía sau biên của một trong các mục θ j . Điều này ngụ ý rằng bạn cần lấy mẫu từ phía sau, điều này có thể gây ra do tính hấp dẫn của khả năng.θ=(θ1,...,θd)θj

Có một số phương pháp để lấy mẫu từ phía sau này trong một số trường hợp, nhưng không có phương pháp chung chính xác nào tồn tại vào lúc này.


... nhưng câu hỏi là về phân phối đơn biến. Có rất nhiều ví dụ về các mô hình phức tạp trong đó MCMC không hội tụ được ngay cả sau số lần lặp khổng lồ.
Tim

@Tim Và đó chính xác là lý do tại sao tôi nói hậu thế cận biên , có nghĩa là đơn phương ... Dường như với tôi bạn không rõ bạn đang hỏi gì. Hai câu trả lời đầu tiên rất rõ ràng về mặt lý thuyết, có thể lấy mẫu từ bất kỳ phân phối nào miễn là bạn biết điều đó.

1
Tôi bỏ phiếu để đặt câu hỏi này [TRÊN GIỜ] cho đến khi OP làm rõ những gì anh ta đang hỏi và ngừng thay đổi câu hỏi mỗi khi câu trả lời mới xuất hiện để làm cho câu trả lời không thể áp dụng được.

Tôi không thay đổi câu hỏi của mình "mỗi khi có câu trả lời mới xuất hiện" ... Rõ ràng mô hình thống kê có khả năng và trước đó không phải là đơn biến vì nó được tuyên bố dưới dạng phân phối có điều kiện. Thật không thể tin được nếu bạn lấy mẫu từ phía sau, nhưng sau đó tôi đoán rằng bạn cho rằng chúng ta đã có phân phối biên nên không có vấn đề gì với hậu thế không thể khắc phục được.
Tim

1
Bạn nhầm lẫn bên lề với univariate , khi hai khái niệm đó không có kết nối. Univariate có nghĩa là biến ngẫu nhiên nằm trong , trong khi biên có nghĩa là phân phối có thể được biểu diễn dưới dạng tích phân so với mật độ khác. Trên thực tế, sử dụng biểu diễn tích phân này có nghĩa là một rv đơn biến có thể được mô phỏng bằng cách mô phỏng đầu tiên một rv đa biến. R
Tây An

1

Không chắc đây có thực sự là một câu trả lời không ... Tôi đoán (nhưng không biết) rằng người ta không thể lấy mẫu từ một phân phối phụ gia hữu hạn. Một ví dụ sẽ là phân phối đồng đều trên các số hữu tỷ, chỉ có thể tồn tại dưới dạng phân phối phụ gia hữu hạn. Để thấy điều này, hãy là một phép liệt kê các số hữu tỷ. Vì sự phân bố đồng đều, P ( X = q i ) = 0 cho bất kỳ cá nhân tôi , vì vậy Σ i = 1 P ( X = q i )(qi)i=1P(X=qi)=0i nhưng P ( X Q ) = 1 .i=1P(X=qi)=0P(XQ)=1

Nếu câu trả lời này có vẻ kỳ lạ và thậm chí là không thích hợp, nhìn vào ví dụ thực tế hơn mà đôi khi được sử dụng trong Bayesian suy luận: Một phân phối trước khi thống nhất về một tham số thực, chẳng hạn như giá trị trung bình của phân phối chuẩn, nói . Điều đó có thể được mô hình hóa bởi một "mật độ" (không phải là mật độ xác suất thực) mà là hệt một: π ( μ ) = 1 . Một ưu tiên như vậy có thể được sử dụng trong phân tích Bayes (và đôi khi được sử dụng, xem cuốn sách kinh điển của Box & Tiao), nhưng chúng tôi không thể lấy mẫu từ nó. Và, phân phối xác suất được xác định theo cách đó chỉ là phụ gia hữu hạn, mà bạn có thể thấy bằng một đối số tương tự như ví dụ về số hữu tỷ ở trên. μπ(μ)=1


0

Bạn có thể cung cấp bất kỳ ví dụ về phân phối đơn biến không thể tạo ngẫu nhiên từ không?

Đặt chằng số Chaitin và lấy mẫu (phân phối) biến ngẫu nhiên liên tục c .

Nếu bạn chỉ quan tâm đến việc lấy mẫu các biến ngẫu nhiên có giá trị có thể được xấp xỉ một cách hợp lý bằng các số dấu phẩy động 64 bit hoặc bạn có một số dung sai tương tự đối với lỗi hữu hạn trong giá trị và dù sao bạn cũng không đại diện cho các mẫu của mình một máy Turing , xem xét điều này:

XBer(p)p=1c01

The two CDFs are piecewise constant: one is 0 on (,c) and 1 on [c,). The other is 0 on (,0), then c on [0,1) and 1 on [1,). That is, one makes c relevant on the x-axis, the other on the y-axis. I'm not sure which makes sampling most difficult, so pick the one you (dis)like the most ;-)

let's say that by "impossible" we mean also cases that are very computationally expensive, e.g. that need brute-force simulations like drawing huge amounts of samples to accept just a few of them.

In this case, obvious answer seems obvious:

  • Sample uniformly the prime factors of n where n is large (i.e. break RSA).
  • Sample the preimages of a cryptographic hash function (i.e. generate bitcoin and break git and mercurial).
  • Sample the set of optimal Go strategies (with Chinese superko rules, which make all games finite—as far as I understand).

A bit more formally: I give you a large instance of an NP-complete problem (or EXP-complete, etc.) and ask you to uniformly sample the set of solutions for me.

Probably I should accept as a solution to no-instances (and no-instances only, and it would be the only solution). I should also come up with a bijection between e.g. integers (assuming you want to sample members of R) and solutions—which is often fairly trivial, just treat base 2 representations as truth assignments for my SAT instance, for example, and maybe use 1 to represent .

You can easily check whether any given truth assignment satisfies my SAT instance, and having checked them all you know whether any one does, so I have fully specified a CDF by giving you a boolean formula (or circuit), yet to sample the corresponding distribution you have to essentially become something at least as powerful as a SAT-solvability oracle.


So I gave you an uncomputable number which should throw sand in your gears, and I gave you a CDF that's slow to calculate. Maybe the next obvious question to ask is something like this: is there a CDF represented in some efficient form (e.g. can be evaluated in polynomial time) such that it's hard to generate samples with that distribution? I don't know the answer to that one. I don't know the answer to that one.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.