Tạo trọng số phân bố đồng đều mà tổng hợp?


14

Người ta thường sử dụng các trọng số trong các ứng dụng như mô hình hỗn hợp và kết hợp tuyến tính các hàm cơ bản. Trọng lượng wi phải thường xuyên tuân theo wi 0 và iwi=1 . Tôi muốn chọn ngẫu nhiên một vectơ trọng lượng w=(w1,w2,) từ một phân bố đều của vectơ đó.

Nó có thể được hấp dẫn để sử dụng wi=ωijωj trong đóωiU (0, 1), tuy nhiên như được thảo luận trong các ý kiến ​​dưới đây, phân phối củawkhông đồng nhất.

Tuy nhiên, với các ràng buộc iwi=1 , có vẻ như chiều kích cơ bản của vấn đề là n1 , và có thể chọn một w bằng cách chọn n1 tham số theo một số phân phối và sau đó tính toán tương ứng wtừ các tham số đó (vì một lầnn1 trong các trọng số được chỉ định, trọng lượng còn lại được xác định đầy đủ).

Vấn đề dường như là tương tự như vấn đề hái điểm cầu (nhưng, thay vì chọn 3 vectơ mà mức là sự thống nhất, tôi muốn chọn n -vectors có 2n chuẩn mực là sự thống nhất).1

Cảm ơn!


3
Phương pháp của bạn không tạo ra một vectơ phân phối đồng đều trên đơn giản. Để làm những gì bạn muốn một cách chính xác, cách đơn giản nhất là tạo iid E x p ( 1 ) biến ngẫu nhiên và sau đó chuẩn hóa chúng bằng tổng của chúng. Bạn có thể thử để làm điều đó bằng cách tìm một số phương pháp khác để vẽ chỉ n - 1 variates trực tiếp, nhưng tôi đã nghi ngờ của tôi về sự cân bằng hiệu quả từ E x p ( 1 ) variates có thể được rất tạo ra hiệu quả từ U ( 0 , 1 ) variates .nExp(1)n1Exp(1)U(0,1)
hồng y

Câu trả lời:


22

Chọn đồng nhất (bằng n - 1 số thực đồng nhất trong khoảng [ 0 , 1 ] ). Sắp xếp các hệ số để 0 x 1x n - 1 . Bộx[0,1]n1n1[0,1]0x1xn1

w=(x1,x2x1,x3x2,,xn1xn2,1xn1).

Because we can recover the sorted xi by means of the partial sums of the wi, the mapping xw is (n1)! to 1; in particular, its image is the n1 simplex in Rn. Because (a) each swap in a sort is a linear transformation, (b) the preceding formula is linear, and (c) linear transformations preserve uniformity of distributions, the uniformity of x implies the uniformity of w on the n1 simplex. Cụ thể, lưu ý rằng các lề của không nhất thiết phải độc lập.w

3D point plot

Biểu đồ điểm 3D này hiển thị kết quả của 2000 lần lặp của thuật toán này với . Các điểm được giới hạn trong đơn giản và được phân phối đồng đều trên nó.n=3


Bởi vì thời gian thực hiện của thuật toán này là , nó là không hiệu quả cho lớn n . Nhưng điều này không trả lời câu hỏi! Một cách tốt hơn (nói chung) để tạo ra giá trị phân bố đều trên n - 1 -simplex là để vẽ n số thực thống nhất ( x 1 , ... , x n ) trên khoảng [ 0 , 1 ] , tính toánO(nlog(n))O(n)nn1n(x1,,xn)[0,1]

yi=log(xi)

(làm cho mỗi dương với xác suất 1 , từ đó tổng của chúng gần như chắc chắn là khác không) và đặtyi1

w=(y1,y2,,yn)/(y1+y2++yn).

Điều này hoạt động vì mỗi có phân phối Γ ( 1 ) , ngụ ý w có phân phối Dirichlet ( 1 , 1 , 1 ) - và đó là thống nhất.yiΓ(1)w(1,1,1)

[3D point plot 2]


1
@ Chris Nếu bởi "Dir (1)" bạn có nghĩa là phân phối với các thông số Dirichlet = ( 1 , 1 , ... , 1 ) , thì câu trả lời là có. (α1,,αn)(1,1,,1)
whuber

1
(+1) One minor comment: The intuition is excellent. Care in interpreting (a) may need to be taken, as it seems that the "linear transformation" in that part is a random one. However, this is easily worked around at the expense of additional formality by using exchangeability of the generating process and a certain invariance property.
cardinal

1
More explicitly: For distributions with a density f, the density of the order statistics of an iid sample of size n is n!f(x1)f(xn)1(x1<x2<<xn). In the case of f=1[0,1](x), phân phối số liệu thống kê đơn hàng là thống nhất trên một đa giác. Lấy từ thời điểm này, các biến đổi còn lại là xác định và kết quả sau.
Đức hồng y

1
In1=[0,1]n1 is carved into (n1)! regions, of which one is distinguished from the others, and there's a predetermined affine bijection between each region and the distinguished one. Whence, the only additional fact we need is that a uniform distribution on a region is uniform on any measurable subset of it, which is a complete triviality.
whuber

2
@whuber: Interesting remarks. Thanks for sharing! I always appreciate your insightful thoughts on such things. Regarding my previous comment on "random linear transformation", my point was that, at least through x, the transformation used depends on the sample point ω. Another way to think of it is there is a fixed, predetermined function T:Rn1Rn1 such that w=T(x), but I wouldn't call that function linear, though it is linear on subsets that partition the (n1)-cube. :)
cardinal

1
    zz <- c(0, log(-log(runif(n-1))))
    ezz <- exp(zz)
    w <- ezz/sum(ezz)

The first entry is put to zero for identification; you would see that done in multinomial logistic models. Of course, in multinomial models, you would also have covariates under the exponents, rather than just the random zzs. The distribution of the zzs is the extreme value distribution; you'd need this to ensure that the resulting weights are i.i.d. I initially put rnormals there, but then had a gut feeling that this ain't gonna work.


That doesn't work. Did you try looking at a histogram?
cardinal

4
Your answer is now almost correct. If you generate n iid Exp(1) and divide each by the sum, then you will get the correct distribution. See Dirichlet distribution for more details, though it doesn't discuss this explicitly.
cardinal

1
Given the terminology you are using, you sound a little confused.
cardinal

2
Actually, the Wiki link does discuss this (fairly) explicitly. See the second paragraph under the Support heading.
cardinal

1
This characterization is both too restrictive and too general. It is too general in that the resulting distribution of w must be "uniform" on the n1 simplex in Rn. It is too restrictive in that the question is worded generally enough to allow that w be some function of an n1-variate distribution, which in turn presumably, but not necessarily, consists of n1 independent (and perhaps iid) variables.
whuber

0

The solution is obvious. The following MathLab code provides the answer for 3 weights.

function [  ] = TESTGEN( )
SZ  = 1000;
V  = zeros (1, 3);
VS = zeros (SZ, 3);
for NIT=1:SZ   
   V(1) = rand (1,1);     % uniform generation on the range 0..1
   V(2) = rand (1,1) * (1 - V(1));
   V(3) = 1 - V(1) - V(2);  
   PERM = randperm (3);    % random permutation of values 1,2,3
   for NID=1:3
         VS (NIT, NID) = V (PERM(NID));
    end
end 
figure;
scatter3 (VS(:, 1), VS(:,2), VS (:,3));
end

enter image description here


1
Your marginals do not have the correct distribution. Judging from the Wikipedia article on the Dirichlet distribution (random number generation section, which has the algorithm you have coded), you should be using a beta(1,2) distribution for V(1), not a uniform[0,1] distribution.
soakley

It does appear that the density increases in the corners of this tilted triangle. Nonetheless, it provides a nice geometric display of the problem.
DWin
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.