Một Multinomial (1 / n, Gabriel, 1 / n) có thể được mô tả như một Dirichlet rời rạc (1, .., 1) không?


24

Vì vậy, câu hỏi này hơi lộn xộn, nhưng tôi sẽ bao gồm các biểu đồ đầy màu sắc để bù đắp cho điều đó! Đầu tiên là Bối cảnh sau đó là Câu hỏi.

Lý lịch

Giả sử bạn có phân phối đa chiều chiều với các probailites bằng nhau trên loại. Đặt là số đếm được chuẩn hóa ( ) từ phân phối đó, đó là:nnπ=(π1,,πn)c

(c1,,cn)Multinomial(1/n,,1/n)πi=cin

Bây giờ phân phối trên có hỗ trợ trên -simplex nhưng với các bước riêng biệt. Ví dụ: với phân phối này có hỗ trợ sau (các chấm đỏ):πnn=3

nhập mô tả hình ảnh ở đây

Một phân phối khác có hỗ trợ tương tự là phân phối -dimensional , nghĩa là phân phối đồng đều trên đơn vị đơn vị. Ví dụ: đây là các lần rút ngẫu nhiên từ 3 :Dirichlet ( 1 , ... , 1 ) Dirichlet ( 1 , 1 , 1 )nDirichlet(1,,1)Dirichlet(1,1,1)

nhập mô tả hình ảnh ở đây

Bây giờ tôi đã có ý tưởng rằng phân phối từ phân phối có thể được mô tả là rút ra từ một được phân tách thành hỗ trợ rời rạc của . Sự rời rạc mà tôi có trong tâm trí (và điều đó dường như hoạt động tốt) là đưa từng điểm trong đơn giản và "làm tròn nó" đến điểm gần nhất có sự hỗ trợ của . Đối với đơn giản 3 chiều, bạn có được phân vùng sau trong đó các điểm trong mỗi vùng được tô màu sẽ "làm tròn" đến điểm đỏ gần nhất:đa thức ( 1 / n , ... , 1 / n ) Dirichlet ( 1 , ... , 1 ) π ππMultinomial(1/n,,1/n)Dirichlet(1,,1)ππ

nhập mô tả hình ảnh ở đây

Do phân phối Dirichlet là đồng nhất, mật độ / xác suất kết quả cho mỗi điểm tỷ lệ thuận với diện tích / thể tích được "làm tròn" cho mỗi điểm. Đối với trường hợp hai chiều và ba chiều, các xác suất này là:

nhập mô tả hình ảnh ở đây ( những xác suất này là từ mô phỏng Monte Carlo )

Vì vậy, có vẻ như, ít nhất là cho 2 và 3 chiều, phân phối xác suất kết quả từ việc rời rạc theo cách cụ thể này giống như phân phối xác suất cho . Đó là kết quả được chuẩn hóa của phân phối . Tôi cũng đã thử với 4 chiều và có vẻ như nó hoạt động ở đó.π đa thức ( 1 / n , ... , 1 / n )Dirichlet(1,,1)πMultinomial(1/n,,1/n)

Câu hỏi

Vì vậy, câu hỏi chính của tôi là:

Khi phân biệt Dirichlet thống nhất theo cách cụ thể này, liệu mối quan hệ với có giữ cho các kích thước tiếp theo không? Liệu mối quan hệ có giữ được gì không? (Tôi chỉ thử điều này bằng mô phỏng Monte Carlo ...)Multinomial(1/n,,1/n)

Hơn nữa tôi tự hỏi:

  • Nếu mối quan hệ này được giữ, nó có phải là một kết quả được biết đến? Và có một số nguồn tôi có thể trích dẫn cho điều này?
  • Nếu sự rời rạc của Dirichlet thống nhất này không có mối quan hệ này với Đa thức. Có một số xây dựng tương tự có?

Một số bối cảnh

Lý do của tôi để đặt câu hỏi này là tôi đang xem xét sự giống nhau giữa Bootstrap không tham số và Bootstrap Bayesian, và sau đó điều này xuất hiện. Tôi cũng đã nhận thấy rằng mô hình trên các vùng màu trên đơn giản 3 số ở trên trông giống như (và nên là) một sơ đồ Voronoi. Một cách (tôi hy vọng) bạn có thể nghĩ về điều này giống như một chuỗi Tam giác / Simpex của Pascal ( http://www.math.rutgers.edu/~erowland/pascalssimplices.html ). Trong đó kích thước của các vùng màu theo hàng tam giác thứ hai của Pascal trong trường hợp 2-d, hàng thứ ba của tứ diện Pascal trong trường hợp 3-d, v.v. Điều này sẽ giải thích mối liên hệ với phân phối đa quốc gia, nhưng ở đây tôi thực sự ở dưới nước sâu ...


2
vui vẻ! (Như thường lệ.) Nhưng tôi nhớ kết nối vớ.
Tây An

Vâng, tôi bắt đầu vẽ vớ với sự thay thế. Nhưng sau đó tôi bắt đầu nghĩ về Bayesian Boostrap, một điều dẫn đến điều khác, và đó là cách tôi kết thúc ở đây :)
Rasmus Bååth

2
@ Xi'an có thể đó là tất chứ không phải là chó con nên trở thành linh vật Bayes?
Tim

Câu trả lời:


14

Hai phân phối này khác nhau cho mỗi .n4

Ký hiệu

Tôi sẽ giải quyết đơn giản của bạn theo hệ số , để các điểm mạng có tọa độ nguyên. Điều này không thay đổi bất cứ điều gì, tôi chỉ nghĩ rằng nó làm cho ký hiệu bớt cồng kềnh hơn một chút.n

Đặt là -simplex, được cho là vỏ lồi của các điểm , ..., trong . Nói cách khác, đây là những điểm mà tất cả các tọa độ đều không âm và là tọa độ tổng hợp với .( n - 1 ) ( n , 0 , Vay , 0 ) ( 0 , Rời , 0 , n ) R n nS(n1)(n,0,,0)(0,,0,n)Rnn

Đặt biểu thị tập hợp các điểm mạng , tức là các điểm đó trong trong đó tất cả các tọa độ là tích phân.SΛS

Nếu là một điểm mạng, chúng ta để biểu thị ô Voronoi của nó , được định nghĩa là các điểm trong (đúng) với hơn bất kỳ điểm nào khác trong .V P S P ΛPVPSPΛ

Chúng tôi đặt hai phân phối xác suất mà chúng tôi có thể đặt vào . Một là phân phối đa cực, trong đó điểm có xác suất . Cái khác chúng ta sẽ gọi mô hình Dirichlet và nó gán cho mỗi một xác suất tỷ lệ thuận với âm lượng của .( một 1 , . . . , Một n ) 2 - n n ! / ( Một 1 ! một n ! ) P bước sóng V PΛ(a1,...,an)2nn!/(a1!an!)PΛVP

Biện minh rất không chính thức

Tôi cho rằng mô hình đa cực và mô hình Dirichlet cung cấp các bản phân phối khác nhau trên , bất cứ khi nào .n 4Λn4

Để thấy điều này, hãy xem xét trường hợp và các điểm và . Tôi cho rằng và đồng dạng thông qua bản dịch theo vectơ . Điều này có nghĩa là và có cùng âm lượng và do đó và có cùng xác suất trong mô hình Dirichlet. Mặt khác, trong mô hình đa cực, chúng có xác suất khác nhau ( Và ), Và nó theo đó các phân phối không thể bằng nhau.A = ( 2 , 2 , 0 , 0 ) B = ( 3 , 1 , 0 , 0 ) V A V B ( 1 , - 1 ,n=4A=(2,2,0,0)B=(3,1,0,0)VAVBV Một V B Một B 2 - 44 ! / ( 2 ! 2 ! ) 2 - 4(1,1,0,0)VAVBAB244!/(2!2!)244!/3!

Thực tế là và phù hợp theo yêu cầu chính đáng nhưng không rõ ràng (và hơi mơ hồ) sau đây:V BVAVB

Khiếu nại hợp lý : Hình dạng và kích thước của chỉ bị ảnh hưởng bởi "hàng xóm trực tiếp" của , (nghĩa là các điểm trong khác với bởi một vectơ trông giống như , trong đó và có thể ở những nơi khác) P Λ P ( 1 , - 1 , 0 , ... , 0 ) 1 - 1VPPΛP(1,1,0,,0)11

Thật dễ dàng để thấy rằng các cấu hình của "hàng xóm ngay lập tức" của và là như nhau, và sau đó và phù hợp với nhau.B V A V BABVAVB

Trong trường hợp , chúng ta có thể chơi cùng một trò chơi, với và chẳng hạn.n5B = ( 3 , 1 , n - 4 , 0 , Câu , 0 )A=(2,2,n4,0,,0)B=(3,1,n4,0,,0)

Tôi không nghĩ rằng tuyên bố này là hoàn toàn rõ ràng và tôi sẽ không chứng minh điều đó, thay vào đó là một chiến lược hơi khác. Tuy nhiên, tôi nghĩ rằng đây là một câu trả lời trực quan hơn về lý do tại sao các bản phân phối khác nhau cho .n4

Bằng chứng nghiêm ngặt

Lấy và như trong lời biện minh không chính thức ở trên. Chúng ta chỉ cần chứng minh rằng và là đồng dạng.B V A V BABVAVB

Cho , chúng tôi sẽ xác định như sau: là tập hợp các điểm , trong đó . (Theo cách dễ tiêu hóa hơn: Đặt . là tập hợp các điểm mà chênh lệch giữa cao nhất và thấp nhất nhỏ hơn 1.)W P W P ( x 1 , ... , xP=(p1,,pn)ΛWPWPmax(x1,,xn)S v i = amax1in(aipi)min1in(aipi)<1W P v ivi=aipiWPvi

Chúng tôi sẽ chỉ ra rằng .VP=WP

Bước 1

Yêu cầu: .VPWP

Điều này khá dễ dàng: Giả sử không có trong . Đặt và giả sử (không mất tính tổng quát) rằng , . Vì , chúng tôi cũng biết rằng .W P v i = x i - p i v 1 = max 1 i n v i v 2X=(x1,,xn)WPvi=xipiv1=max1inviv 1 - v 21 Σ n i = 1 v i = 0 v 1v2=min1inviv1v21i=1nvi=0v1>0>v2

Đặt ngay . Vì cả và đều có tọa độ không âm, cũng vậy và nó theo và . Mặt khác, . Do đó, ít nhất cũng gần với như , vì vậy . Điều này cho thấy (bằng cách bổ sung) rằng .P X Q Q S Q bước sóng 1 - v 1 ) 2 - ( 1 + v 2 ) 2 = - 2 +Q=(p1+1,p21,p3,,pn)PXQQSQΛX Q P X V P V pW Pdist2(X,P)dist2(X,Q)=v12+v22(1v1)2(1+v2)2=2+2(v1v2)0XQPXVPVpWP

Bước 2

Yêu cầu : tách rời nhau.WP

Giả sử khác đi. Đặt và là các điểm khác biệt trong và để . Vì và là khác biệt và cả trong , nên phải có một chỉ số trong đó và một trong đó . Không mất tính tổng quát, chúng tôi giả sử rằng và . Sắp xếp lại và thêm vào với nhau, chúng tôi nhận được .Q = ( q 1 , ... , q n ) Λ X W PW Q P Q Λ i p iqP=(p1,,pn)Q=(q1,,qn)ΛXWPWQPQΛip iq i - 1 p 1q 1 + 1 p 2q 2 -piqi+1piqi1p1q1+1q 1 - p 1 + p 2 - q 22p2q21q1p1+p2q22

Hãy xem xét các số và . Từ thực tế là , chúng ta có . Tương tự, ngụ ý rằng . Cộng những thứ này lại với nhau, chúng ta sẽ có và chúng ta có một mâu thuẫn.x 2 X W P x 1 - p 1 - ( x 2 - p 2 ) < 1 X W Q x 2 - q 2 - ( x 1 - q 1 ) < 1 q 1 - p 1 + p 2 - q 2 < 2x1x2XWPx1p1(x2p2)<1XWQx2q2(x1q1)<1q1p1+p2q2<2

Bước 3

Chúng tôi đã chỉ ra rằng và nhau. Các bìa lên đến một tập hợp các biện pháp không, và nó sau đó (lên đến một tập hợp các biện pháp zero). [Vì và đều mở, chúng tôi thực sự có chính xác, nhưng điều này không cần thiết.]W P V P S W P = V P W P V P W P = V PVPWPWPVPSWP=VPWPVPWP=VP

Bây giờ, chúng ta gần như đã hoàn thành. Xét các điểm và . Dễ dàng thấy rằng và là đồng dạng và bản dịch của nhau: cách duy nhất chúng có thể khác nhau, là nếu ranh giới của (không phải là khuôn mặt mà cả và đều nói dối) sẽ 'cắt đứt' ' hoặc hoặc nhưng không phải cái khác. Nhưng để đạt được một phần ranh giới của , chúng ta sẽ cần thay đổi một tọa độ của hoặc ít nhất là 1, đủ để đảm bảo đưa chúng ta ra khỏiA=(2,2,n4,0,,0)B=(3,1,n4,0,,0)WAWBSABWAWBSABWAvà nào. Do đó, mặc dù trông khác với các điểm thuận lợi và , nhưng sự khác biệt là quá xa để được chọn bởi các định nghĩa của và , và do đó và là đồng dạng.WBSABWAWBWAWB

Sau đó, và có cùng một âm lượng và do đó mô hình Dirichlet gán cho chúng cùng một xác suất, mặc dù chúng có xác suất khác nhau trong mô hình đa phương thức.VAVB


Wow, nghiêm ngặt! Cảm ơn! Vì vậy, sự tương ứng nhỏ mà tôi đã hy vọng là tình cờ tôi đoán ...
Rasmus Bååth
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.