Lấy mẫu chính xác từ các hỗn hợp không đúng cách


10

Giả sử tôi muốn lấy mẫu từ một phân phối liên tục . Nếu tôi có một biểu thức của trong mẫupp(x)p

p(x)=i=1aifi(x)

trong đó và f_i là các bản phân phối có thể dễ dàng lấy mẫu từ đó, sau đó tôi có thể dễ dàng tạo mẫu từ p bằng cách:ai0,iai=1fip

  1. Lấy mẫu nhãn i với xác suất ai
  2. Lấy mẫu Xfi

Có thể khái quát thủ tục này nếu ai đôi khi âm? Tôi nghi ngờ tôi đã thấy điều này được thực hiện ở đâu đó - có thể trong một cuốn sách, có thể là cho bản phân phối Kolmogorov - vì vậy tôi rất vui khi chấp nhận một tài liệu tham khảo như một câu trả lời.

Nếu một ví dụ về đồ chơi cụ thể là hữu ích, giả sử tôi muốn lấy mẫu từ

p(x,y)exp(xyαxy)x,y>0
Tôi sẽ lấy α(0,2) vì lý do kỹ thuật không quan trọng quá nhiều, trong sơ đồ lớn của mọi thứ.

Về nguyên tắc, sau đó tôi có thể mở rộng số tiền này dưới dạng tổng sau:

p(x,y)n=0(1)nαn(n2)!(n2)!n!(xn/2ex(n2)!)(yn/2ey(n2)!).

Các ký tự (x,y) bên trong tổng sau đó có thể được lấy mẫu độc lập từ các biến thể ngẫu nhiên Gamma. Vấn đề của tôi rõ ràng là các hệ số "đôi khi" âm tính.

Chỉnh sửa 1 : Tôi làm rõ rằng tôi đang tìm cách tạo các mẫu chính xác từ p , thay vì tính toán các kỳ vọng theo p . Đối với những người quan tâm, một số thủ tục để làm như vậy được ám chỉ trong các ý kiến.

Chỉnh sửa 2 : Tôi tìm thấy tài liệu tham khảo bao gồm một cách tiếp cận cụ thể cho vấn đề này, trong 'Thế hệ biến thể ngẫu nhiên không đồng nhất' của Devroye . Thuật toán lấy từ 'Lưu ý về Lấy mẫu từ Kết hợp phân phối', của Bignami và de Matteis . Phương pháp này có hiệu quả để ràng buộc mật độ từ trên bằng các số hạng dương của tổng, và sau đó sử dụng lấy mẫu từ chối dựa trên đường bao này. Điều này tương ứng với phương pháp được mô tả trong câu trả lời của @ Xi'an.


1
Tại sao bạn không thể lấy mẫu bằng cách chỉ sử dụng giá trị tuyệt đối của và sau đó phủ nhận mẫu ? Nói cách khác, xác định(giả sử nó hữu hạn), và sau đó renormalize sum của bạn bằng cách . aiXfiZ:=i=1|ai|Z
Alex R.

2
@AlexR. Nếu tôi hiểu bạn, một phiên bản này sẽ rất thiết thực để tính toán các kỳ vọng theo , nhưng vẫn không thể vẽ các mẫu chính xác từ . Chắc chắn đây là một câu trả lời cho một vấn đề có liên quan, mặc dù không hoàn toàn những gì tôi đang tìm kiếm. pp
πr8

4
Nó phụ thuộc vào những gì bạn định làm với mẫu đó. Ví dụ, với mục đích tính toán các khoảnh khắc tính toán, có vẻ đơn giản để tổng quát hóa việc lấy mẫu từ các hỗn hợp mật độ bằng cách gắn cờ bất kỳ điểm nào được chọn từ một thành phần có hệ số âm là điểm "âm" và đánh giá đóng góp của nó theo cách ước tính. Tương tự như vậy, bạn có thể xây dựng một KDE với các trọng số âm như vậy, miễn là bạn có thể chấp nhận khả năng một số giá trị của nó sẽ âm! (cc @ Xi'an)
whuber

1
Mẫu "chính xác" của phân phối sẽ là gì? Một lần nữa, liệu bạn có thể khai thác hỗn hợp có trọng lượng âm hay không tùy thuộc vào cách bạn định sử dụng mẫu.
whuber

1
Điều này không trả lời câu hỏi của bạn, nhưng bạn có thể quan tâm đến việc đọc về lấy mẫu từ các xác suất đăng nhập thống kê.stackexchange.com/a/260248/35989
Tim

Câu trả lời:


5

Tôi đã bối rối về câu hỏi này nhưng không bao giờ đi kèm với một giải pháp thỏa mãn.

Một thuộc tính có thể sử dụng là, nếu mật độ ghi trong đó là a mật độ sao cho , mô phỏng từ và từ chối các mô phỏng này với xác suất cung cấp mô phỏng từ . Trong trường hợp hiện tại, là phiên bản chuẩn hóa của các thành phần trọng lượng dương và là phần còn lại

f(x)=g(x)ωh(x)1ωω>0
gg(x)ωh(x)gωh(x)/g(x)fg
g(x)=αi>0αifi(x)/αi>0αi
ωh
h(x)=αi<0αifi(x)/αi<0αi
Điều này thực sự được tìm thấy trong kinh thánh mô phỏng của Devroye, thế hệ biến thiên ngẫu nhiên không đồng nhất , Phần II.7.4, nhưng xuất phát từ một lý do chấp nhận từ chối đơn giản.

Một nhược điểm đầu tiên của phương pháp tính toán này là, mặc dù mô phỏng đầu tiên từ một thành phần được chọn , các khoản tiền trong cả và phải được tính cho bước từ chối. Nếu các khoản tiền là vô hạn không có phiên bản biểu mẫu đóng, điều này làm cho phương thức chấp nhận từ chối không thể thực hiện được .figh

Một khó khăn thứ hai là, vì cả hai tổng trọng số đều có cùng thứ tự tỷ lệ từ chốikhông có giới hạn trên. Trên thực tế nếu chuỗi liên kết với không hoàn toàn hội tụ, xác suất chấp nhận bằng không! Và phương pháp không thể được thực hiện trong tình huống này.

αi>0αi=1αi<0αi
1ϱaccept=αi<0|αi|/i|αi|
αi

Trong trường hợp biểu diễn hỗn hợp, nếu có thể được viết là thành phần có thể được chọn trước tiên và sau đó phương thức được áp dụng cho thành phần. Nhưng điều này có thể rất khó thực hiện, xác định các cặp phù hợp với từ tổng vô hạn có thể không nhất thiết là khả thi.f

f(x)=i=1αigi(x)ωih(xi)1ωiωi>0
(gi,hi)gi(x)ωih(xi)>0

Tôi nghĩ rằng một độ phân giải hiệu quả hơn có thể đến từ chính đại diện loạt. Devroye, thế hệ phương sai ngẫu nhiên không đồng nhất , Phần IV.5, chứa một loạt các phương pháp loạt. Ví dụ: thuật toán sau cho biểu diễn chuỗi thay thế của mục tiêu khi ' s hội tụ về 0 với và là mật độ:

f(x)=κh(x){1a1(x)+a2(x)}
ai(x)nhPhương pháp loạt thay thế của Devroye

Vấn đề đã được xem xét gần đây trong bối cảnh các công cụ ước tính thiên vị cho MCMC, ví dụ như trong phương pháp Glynn-Rhee . Và công cụ ước tính roulette Nga (có liên quan đến vấn đề nhà máy Bernoulli). Và phương pháp MCMC không thiên vị . Nhưng không có lối thoát khỏi vấn đề dấu hiệu ... Điều này khiến cho việc sử dụng nó trở nên khó khăn khi ước tính mật độ như trong các phương pháp giả biên.

Sau khi suy nghĩ thêm, kết luận của tôi là không có phương pháp chung nào để tạo ra một mô phỏng thực tế từ loạt bài này [thay vì hỗn hợp hóa ra là một cách hiểu sai], mà không áp đặt thêm cấu trúc cho các yếu tố của chuỗi, như phương pháp trong thuật toán trên từ kinh thánh của Devroye . Thật vậy, vì hầu hết mật độ (?) Cho phép mở rộng một loạt các loại ở trên, điều này sẽ ám chỉ sự tồn tại của một loại máy mô phỏng vạn năng ...


Cảm ơn bạn! Tôi đánh giá cao các tài liệu tham khảo bổ sung cũng.
πr8

1
Cảm ơn thêm cho các phản ứng và tài liệu tham khảo rất kỹ lưỡng. Tôi rất vui khi chấp nhận câu trả lời này vì nó thành công trong việc tạo ra các mẫu chính xác từ trong thời gian hữu hạn. Tôi có khả năng sẽ tiếp tục suy nghĩ về vấn đề ở một mức độ nào đó; ý tưởng bổ sung duy nhất mà tôi có có vẻ hứa hẹn là xem lấy mẫu từ khi lấy mẫu , có điều kiện trên , và có thể có một số hình học cái nhìn sâu sắc hữu ích cho đặc tính này (Tôi đang suy nghĩ như một bộ lấy mẫu lát trên ). Chúc mừng! pp=λgμhXgλgμh{(x,y):μh(x)<y<λg(x)}
πr8

1
Tôi giải thích người lấy mẫu có điều kiện khá kém; đặc tính dựa trên tập hợp rõ ràng hơn một chút (theo ý kiến ​​của tôi). Điểm mấu chốt của tôi là nếu bạn có thể lấy mẫu một cách thống nhất từ ​​tập hợp hai chiều trong dòng cuối cùng, thì theo sau -coordine có phân phối chính xác. Việc mô tả đặc tính này có thể hữu ích cho các hỗn hợp không phù hợp dựa trên tổng dài hơn hay không vẫn còn được nhìn thấy. (x,y)x
πr8

1
Tôi cũng đã nghĩ đến một bộ lấy mẫu lát, nhưng điều này không "chính xác" theo nghĩa mô phỏng.
Tây An

1

Tôi có dự thảo về một ý tưởng có thể làm việc. Nó không chính xác , nhưng hy vọng chính xác không có triệu chứng. Để biến nó thành một phương pháp thực sự nghiêm ngặt, trong đó kiểm soát gần đúng hoặc một cái gì đó về nó có thể được chứng minh, có lẽ cần rất nhiều công việc.

Đầu tiên, như được đề cập bởi Xi'an, bạn có thể nhóm các trọng số dương trên một mặt và mặt khác các trọng số âm, để cuối cùng vấn đề chỉ có hai phân phối và :gh

p=λgμh

với . Lưu ý rằng bạn có .λμ=1λ1

Ý tưởng của tôi là như sau. Bạn muốn quan sát mẫu từ . Làm:Np

  • mẫu giá trị từ và lưu trữ chúng trong danh sáchλNg
  • đối với mỗi giá trị lấy mẫu từ , hãy xóa hàng xóm gần nhất (còn lại) của chúng khỏi danh sách.μNh

Cuối cùng, bạn nhận được điểm. Nó không cần phải chính xác là hàng xóm gần nhất , mà chỉ cần một điểm "đủ gần". Bước đầu tiên giống như tạo ra vật chất. Bước thứ hai giống như tạo ra phản vật chất và để nó va chạm và hủy bỏ với vật chất. Phương pháp này không chính xác, nhưng tôi tin rằng, trong một số điều kiện, nó chính xác không có triệu chứng đối với lớn (để làm cho nó gần như chính xác cho nhỏ bạn cần sử dụng lớn trước và sau đó lấy một phần nhỏ ngẫu nhiên trong danh sách cuối cùng) . Tôi đang đưa ra một lập luận rất không chính thức, đó là một lời giải thích hơn là một bằng chứng.(λμ)N=NNnN

Xem xét trong không gian quan sát và âm lượng nhỏ xung quanh với âm lượng Lebesgue . Sau khi lấy mẫu từ , số phần tử trong danh sách cũng có trong là xấp xỉ . Sau bước thứ hai, xấp xỉ sẽ bị xóa khỏi nó và bạn có số xấp xỉ mong muốn . Đối với điều này, bạn cần giả định rằng số điểm trong âm lượng là đủ lớn.xvxϵgvλNg(x)ϵμNh(x)ϵNp(x)ϵ

Phương pháp này rất khó có thể chống lại kích thước lớn hoặc một số bệnh lý của và nhưng có thể hoạt động ở kích thước nhỏ và các phân phối "đủ đồng đều".gh

Lưu ý về một phương pháp chính xác:

Trước tiên tôi nghĩ về điều này cho các phân phối rời rạc và rõ ràng trong trường hợp đó phương pháp này không chính xác, vì nó có thể tạo ra các mẫu có xác suất 0. Tôi có trực giác mạnh mẽ rằng một phương pháp chính xác là không thể với thời gian xử lý hữu hạn, và điều này không thể chứng minh được, ít nhất là đối với các phân phối rời rạc. Luật chơi là bạn chỉ được phép sử dụng các bộ lấy mẫu "tiên tri" chính xác cho và nhưng không biết và là các hàm của . Để đơn giản, hạn chế phân phối Bernoulli. Sự không tồn tại của một phương thức chính xác có liên quan đến lý thuyết Nhà máy Bernoulli : nếu bạn có thể tạo một -coin từ mộtghghx(λpμq)p-coin và -coin, sau đó bạn có thể tạo một -coin từ -coin, điều được biết là không thể đối với .qλppλ>1


1
Tôi đã xem xét điều này nhưng từ chối nó bởi vì những nỗ lực ban đầu của tôi để chứng minh nó có thể hoạt động đã dẫn đến việc nhận ra rằng, tốt nhất, nó sẽ là một xấp xỉ và có khả năng là một người nghèo. Có, không có triệu chứng, nó có thể hoạt động, nhưng nó sẽ không đáp ứng yêu cầu lấy mẫu "chính xác" của OP từ bản phân phối.
whuber

Hiệu quả của phương pháp này chính xác theo cùng thứ tự với phương pháp chấp nhận từ chối chính xác.
Tây An

1
Đã đồng ý. Tuy nhiên, chúng là khá khác nhau. Phương thức chấp nhận từ chối cần tính và là các hàm của . Tôi tập trung vào việc chỉ sử dụng lấy mẫu từ và là các mẫu lấy mẫu "tiên tri" như trong một hỗn hợp thực sự. Càng nghĩ về nó, tôi càng tin rằng một phương pháp chính xác dựa trên các phép lạ lấy mẫu không thể tồn tại. ghxgh
Benoit Sanchez

1
Tôi nghĩ đó là thường chính xác, nhưng có thể có các lớp học hữu ích của trường hợp đặc biệt một phương pháp chính xác như vậy không tồn tại. Đó là bởi vì (1) trong một số trường hợp, việc tính toán là dễ dàng và (2) bạn không cần tính cả và bạn chỉ cần tính tỷ lệ này. g/(g+h)gh
whuber

@BenoitSanchez Cảm ơn bạn đã trả lời sâu sắc; Tôi đặc biệt đánh giá cao những bình luận ở phần cuối về khả năng không chính xác (tiềm năng). Tôi đã đi qua Bernoulli Factories trong quá khứ và thấy chúng khá khó khăn; Tôi sẽ cố gắng xem lại chủ đề và xem nó có cung cấp bất kỳ thông tin chi tiết nào không.
πr8
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.