Phân phối trên các tập con của ?


9

Tôi tự hỏi liệu có bất kỳ loại phân phối tiêu chuẩn nào trên các tập hợp con của số nguyên . Tương tự, chúng ta có thể biểu thị điều này dưới dạng phân phối trên vectơ độ dài của kết quả nhị phân, ví dụ: nếu thì tương ứng với vectơ .{1,2,...,J}JJ=5{1,3,5}(1,0,1,0,1)

Lý tưởng nhất mà tôi đang tìm kiếm là một số phân phối , đến từ một gia đình được lập chỉ mục bởi tham số chiều hữu hạn , sẽ phân phối khối lượng của nó theo cách hai vectơ nhị phân và sẽ tương tự nhau xác suất nếu chúng "gần" với nhau, tức là và có xác suất tương tự. Thực sự, những gì tôi hướng đến hy vọng, được đặt trước sao cho nếu tôi biết khá lớn thì có thể lớn so với các vectơ ở xa .νθ()θr1r2r1=(0,0,1,0,1)r2=(0,0,1,1,1)θνθ(r1)νθ(r2)r1

Một chiến lược xuất hiện trong đầu là đưa một số liệu hoặc một số biện pháp phân tán khác vào trên và sau đó lấy hoặc một cái gì đó tương tự. Một ví dụ rõ ràng sẽ là tương tự như phân phối bình thường. Điều đó tốt, nhưng tôi hy vọng có một cái gì đó tiêu chuẩn và phù hợp với phân tích Bayes; với điều này tôi không thể viết ra hằng số chuẩn hóa.dθ{0,1}Jνθ(r)exp(dθ(r,μ))exp{rμ2/(2σ2)}


Lấy mẫu một tập hợp con là một vấn đề cơ bản trong phương pháp khảo sát.
Stéphane Laurent

@Stephane chắc chắn, nhưng tôi nghĩ vấn đề của tôi khác ở chỗ tôi có một số cấu trúc mong muốn bổ sung mà tôi muốn phân phối của mình phản ánh. Có lẽ phrasing câu hỏi về các tập hợp con là một ý tưởng tồi vì tôi có một khái niệm mơ hồ về khoảng cách làm việc cho tôi.
anh chàng

Ý của bạn là viết "... thì có lẽ nhỏ ..."? Theo như hằng số chuẩn hóa, hãy xem xét sử dụng khoảng cách Hamming cho số liệu: đối với các họ phân phối theo quy mô vị trí, bạn có thể tính hằng số đó dưới dạng tổng của các số hạng . Hơn nữa, tất cả các gia đình đáp ứng tiêu chí của bạn có thể được mô tả chỉ bằng các tham số rời rạc (đối với vị trí) và tham số liên tụcvθ(r2)J+1JJ
whuber

@whuber không, ý tôi là lớn. Tôi muốn phân phối khối lượng của nó xung quanh các điểm gần nhau. Có lẽ sẽ có nhiều apropos hơn để đặt câu hỏi như đặt một phân phối trên đỉnh của một hypercube. Tôi đã xem xét khoảng cách Hamming (mà tôi đoán là giống với trong trường hợp của tôi); Tôi có thể muốn điều chỉnh nó thànhvà tôi đoán có lẽ sẽ phải thực hiện một số MCMC để lấy mẫu từ bản phân phối như vậy. νθ()L1|riμiσi|
anh chàng

Ồ, tôi hiểu rồi. Nhưng đó không phải là những gì bạn nói ban đầu. Chẳng hạn, trong đặc tính của bạn, nếu lớn và là tập hợp các vectơ "ở xa" từ và là bất kỳ vectơ nào không nằm trong , thì cũng phải "có thể" được lớn Nhưng "không xa" và "gần" không có nghĩa chính xác là những điều tương tự. Nó sẽ đơn giản hơn - và nhất quán hơn trong nội bộ - để viết lại điều kiện như bạn đã làm trong nhận xét của mình. Nhưng không, bạn không cần MCMC để lấy mẫu từ các bản phân phối theo vị trí dựa trên khoảng cách Hamming: có nhiều cách hiệu quả hơn nhiều. ν(r1)Rr1r2Rν(r2)
whuber

Câu trả lời:


6

Bạn có thể ưu tiên các gia đình địa điểm dựa trên khoảng cách Hamming , do sự phong phú, linh hoạt và khả năng tính toán của họ.


Ký hiệu và định nghĩa

Hãy nhớ lại rằng trong một mô-đun chiều hữu hạn miễn phí có cơ sở , khoảng cách Hamming giữa hai vectơ và là số lượng địa điểm trong đó .V(e1,e2,,eJ) δHv=v1e1++vJeJw=w1e1++wJeJiviwi

Với bất kỳ nguồn gốc , phân vùng khoảng cách Hamming thành các hình cầu , , trong đó . Khi vòng tiếp đất có phần tử, có phần tử và phần tử có phần tử. (Điều này diễn ra ngay sau khi quan sát rằng các phần tử của khác với ở chính xác vị trí của - trong đó cóv0VVSi(v0)i=0,1,,JSi(v0)={wV | δH(w,v0)=i}nVnJSi(v)(Ji)(n1)iSi(v)vi(Ji)các khả năng - và có, độc lập, lựa chọn các giá trị cho mỗi nơi.)n1

Bản dịch affine trong hoạt động tự nhiên trên các bản phân phối của nó để cung cấp cho các gia đình vị trí. Cụ thể, khi là bất kỳ phân phối nào trên (có nghĩa là ít hơn , cho tất cả và ) và là bất kỳ phần tử nào của , sau đó cũng là một bản phân phối Ở đâuVfVf:V[0,1]f(v)0vVvVf(v)=1wVf(w)

f(w)(v)=f(vw)

cho tất cả . Một gia đình vị trí bản phân phối là bất biến theo hành động này: ngụ ý cho tất cả .vV ΩfΩf(v)ΩvV

Xây dựng

Điều này cho phép chúng tôi xác định các họ phân phối có khả năng thú vị và hữu ích bằng cách chỉ định hình dạng của chúng tại một vectơ cố định , để thuận tiện tôi sẽ sử dụng là và dịch các "phân phối tạo" này dưới tác động của để có được toàn bộ gia đình . Để đạt được thuộc tính mong muốn mà cần có các giá trị tương đương tại các điểm lân cận, chỉ cần yêu cầu thuộc tính đó của tất cả các phân phối tạo.v0=(0,0,,0)VΩf

Để xem cách thức hoạt động, hãy xây dựng họ vị trí của tất cả các bản phân phối giảm dần theo khoảng cách. Vì chỉ có khoảng cách Hamming là có thể, hãy xem xét bất kỳ chuỗi giảm nào của các số thực không âm = . BộJ+1a0a0a1aJ0

A=i=0J(n1)i(Ji)ai

và xác định hàm bằngfa:V[0,1]

fa(v)=aδH(0,v)A.

Sau đó, như là đơn giản để kiểm tra, là một phân phối trên . Hơn nữa, khi và chỉ khi là bội số dương của (dưới dạng vectơ trong ). Do đó, nếu chúng tôi thích, chúng tôi có thể tiêu chuẩn hóa thành .faVfa=faaaRJ+1aa0=1

Theo đó, cấu trúc này cung cấp một tham số rõ ràng cho tất cả các phân phối bất biến vị trí như vậy đang giảm dần theo khoảng cách Hamming: mọi phân phối như vậy đều ở dạng cho một số chuỗi và một số vector .fa(v)a=1a1a2aJ0vV

Việc tham số hóa này có thể cho phép đặc tả thuận tiện của các linh mục: đưa chúng vào vị trí ưu tiên trên vị trí và ưu tiên hình dạng . (Tất nhiên người ta có thể xem xét một tập hợp lớn hơn của các linh mục nơi vị trí và hình dạng và không độc lập, nhưng đây sẽ là một công việc phức tạp hơn.)va

Tạo giá trị ngẫu nhiên

Một cách để lấy mẫu từ là bằng các giai đoạn bằng cách đưa nó vào một phân phối trên radi hình cầu và một phân phối có điều kiện khác trên mỗi hình cầu:fa(v)

  1. Vẽ một chỉ mục từ phân phối rời rạc trên được đưa ra bởi xác suất , trong đó được xác định như trước .i{0,1,,J}(Ji)(n1)iai/AA

  2. Chỉ số tương ứng với tập các vectơ khác với ở chính xác . Do đó, chọn những vị trí trong số các tập con có thể có , cho mỗi xác suất bằng nhau. (Đây chỉ là một ví dụ của Subscript ra khỏi mà không cần thay thế.) Chúng ta hãy tập hợp con này của nơi được viết .ivii(Ji)iJ iI

  3. Vẽ một phần tử bằng cách chọn độc lập một giá trị từ tập vô hướng không bằng cho tất cả và nếu không thì đặt . Tương tự, tạo một vectơ bằng cách chọn một cách ngẫu nhiên từ các vô hướng khác không khi và nếu không thì đặt . Đặt .wwjvjjIwj=vjuujjIuj=0w=v+u

Bước 3 là không cần thiết trong trường hợp nhị phân.


Thí dụ

Đây là một Rthực hiện để minh họa.

rHamming <- function(N=1, a=c(1,1,1), n=2, origin) {
  # Draw N random values from the distribution f_a^v where the ground ring
  # is {0,1,...,n-1} mod n and the vector space has dimension j = length(a)-1.
  j <- length(a) - 1
  if(missing(origin)) origin <- rep(0, j)

  # Draw radii `i` from the marginal distribution of the spherical radii.
  f <- sapply(0:j, function(i) (n-1)^i * choose(j,i) * a[i+1])
  i <- sample(0:j, N, replace=TRUE, prob=f)

  # Helper function: select nonzero elements of 1:(n-1) in exactly i places.
  h <- function(i) {
    x <- c(sample(1:(n-1), i, replace=TRUE), rep(0, j-i))
    sample(x, j, replace=FALSE)
  }

  # Draw elements from the conditional distribution over the spheres
  # and translate them by the origin.
  (sapply(i, h) + origin) %% n
}

Như một ví dụ về việc sử dụng nó:

test <- rHamming(10^4, 2^(11:1), origin=rep(1,10))
hist(apply(test, 2, function(x) sum(x != 0)))

Việc này mất giây để rút ra phần tử iid từ phân phối trong đó , (trường hợp nhị phân), và đang giảm theo cấp số nhân.0.2104fa(v)J=10n=2v=(1,1,,1)a=(211,210,,21)

(Thuật toán này không yêu cầu giảm; do đó, nó sẽ tạo ra các biến thiên ngẫu nhiên từ bất kỳ họ vị trí nào , không chỉ các biến thể không chính thống.)a


Cảm ơn vì điều đó! Khoảng cách Hamming trong trường hợp này chỉ là trong bị giới hạn ở đỉnh khối; trong bối cảnh đó, khoảng cách Hamming đang hoạt động đẳng hướng. Thoát khỏi điều đó tôi đoán làm phức tạp những điều này bởi vì tôi có nhiều hơn giá trị khác nhau cho thước đo khoảng cách của tôi? Bất kỳ ý kiến ​​chung về điều này? L1RJJ
anh chàng

Có: sự lựa chọn các hàm khoảng cách sẽ phụ thuộc vào giá trị trong thể hiện. Bởi vì câu hỏi đã được đưa ra một cách trừu tượng, chúng tôi thực sự không có gì để tiếp tục hình thành ý kiến ​​về những gì sẽ là lựa chọn tốt. Khoảng cách Hamming sẽ phù hợp với các giá trị danh nghĩa và có lẽ trong các trường hợp khác cũng vậy, nhưng các khoảng cách khác có thể hoạt động tốt hơn khi có cảm giác khoảng cách vốn có cho tập hợp . Trong trường hợp nhị phân , thật khó để khái quát khoảng cách Hamming: chúng đã khá chung chung. {1,2,,n}{1,2,,n}n=2
whuber

1

Một mẫu từ quy trình điểm xác định k mô hình phân phối trên các tập hợp con khuyến khích tính đa dạng, sao cho các mục tương tự ít có khả năng xảy ra cùng nhau trong mẫu. Tham khảo lấy mẫu quy trình điểm xác định K của Alex Kulesza, Ben Taskar.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.