Làm cách nào để lấy mẫu từ một phân phối (phân loại) rời rạc trong không gian nhật ký?

12

Giả sử tôi có phân phối rời rạc được xác định bởi vectơ $\theta_0, \theta_1, ..., \theta_N$ sao cho loại $0$ sẽ được rút ra với xác suất $\theta_0$ và cứ thế. Sau đó tôi phát hiện ra rằng một số giá trị trong phân phối quá nhỏ đến mức chúng nằm dưới biểu diễn số dấu phẩy động của máy tính của tôi, vì vậy, để bù lại, tôi thực hiện tất cả các tính toán của mình trong không gian nhật ký. Bây giờ tôi có một khúc gỗ không gian véc tơ $log(\theta_0), log(\theta_1), ..., log(\theta_N)$ .

Có thể lấy mẫu từ phân phối sao cho xác suất ban đầu được giữ (loại $i$ được rút ra với xác suất $\theta_i$ ) nhưng không bao giờ rời khỏi không gian log? Nói cách khác, làm thế nào để tôi lấy mẫu từ bản phân phối này mà không có dòng chảy?

random-generation

— Josh Hansen
nguồn

15

Có thể lấy mẫu từ phân phối phân loại theo xác suất log mà không cần rời khỏi không gian nhật ký bằng thủ thuật Gumbel-max . Ý tưởng là nếu bạn đang trao unnormalized log-xác suất , có thể được dịch sang xác suất thích hợp sử dụng hàm softmax $\alpha_1,\dots,\alpha_k$

p_{i} = \frac{\exp (α_{i})}{\sum_{j} \exp (α_{j})}

$p_i = \frac{\exp(\alpha_i)}{\sum_j \exp(\alpha_j)}$

sau đó đến mẫu từ phân phối như vậy, bạn có thể sử dụng thực tế là nếu được mẫu độc lập lấy từ phân phối Gumbel chuẩn parametrized theo vị trí , $g_1,\dots,g_k \sim \mathcal{G}(0)$ $m$

F (G \leq g) = \exp (- \exp (- g + m))

$F(G \le g) = \exp(-\exp(-g+m))$

sau đó nó có thể được hiển thị (xem tài liệu tham khảo bên dưới) rằng

\begin{aligned} \underset{i}{a r g m a x} {g_{i} + α_{i}} & \sim \frac{\exp (α_{i})}{\sum_{j} \exp (α_{j})} \\ max_{i} {g_{i} + α_{i}} & \sim G (\log \sum_{i} \exp {α_{i}}) \end{aligned}

$\DeclareMathOperator*{\argmax}{arg\,max} \begin{align} \argmax_i \,\{\, g_i + \alpha_i \,\} &\sim \frac{\exp(\alpha_i)}{\sum_j \exp(\alpha_j)} \\ \max_i\,\{\, g_i + \alpha_i \,\} &\sim \mathcal{G}(\; \log\sum_i\exp\{\alpha_i\}\;) \end{align}$

và chúng ta có thể lấy

z = \underset{i}{a r g m a x} {g_{i} + α_{i}}

$z = \argmax_i \,\{\, g_i + \alpha_i \,\}$

như một mẫu từ phân phối phân loại tham số theo xác suất . Cách tiếp cận này được mô tả chi tiết hơn trong các mục blog của Ryan Adams và Laurent Dinh , hơn nữa Chris J. Maddison, Daniel Tarlow và Tom Minka đã đưa ra một bài giảng ( slide ) về hội nghị Hệ thống xử lý thông tin thần kinh (2014) và viết một bài báo có tựa đề A * Lấy mẫu $p_1,\dots,p_k$ đã khái quát những ý tưởng đó (xem thêm Maddison, 2016; Maddison, Mnih và Teh, 2016; Jang và Poole, 2016), người đề cập đến Yellott (1977) đề cập đến ông là một trong những người đầu tiên mô tả tài sản này.

Thật dễ dàng để thực hiện nó bằng cách sử dụng lấy mẫu biến đổi nghịch đảo bằng cách lấy trong đó được rút ra từ phân phối đồng đều trên . Đây chắc chắn không phải là thuật toán hiệu quả nhất về thời gian để lấy mẫu từ phân phối phân loại, nhưng nó cho phép bạn ở trong không gian log, điều có thể là một lợi thế trong một số tình huống. $g_i=-\log(-\log u_i)$ $u_i$ $(0,1)$

Maddison, CJ, Tarlow, D., & Minka, T. (2014). A * lấy mẫu. [Trong:] Những tiến bộ trong hệ thống xử lý thông tin thần kinh (trang 3086-3094).

Yellott, JI (1977). Mối quan hệ giữa tiên đề lựa chọn của Luce, lý thuyết về phán đoán so sánh của Thurstone và phân bố theo cấp số nhân. Tạp chí Tâm lý học toán học, 15 (2), 109-144.

Maddison, CJ, Mnih, A., & Teh, YW (2016). Phân phối cụ thể: Thư giãn liên tục các biến ngẫu nhiên rời rạc. bản in sẵn arXiv arXiv: 1611.00712.

Jang, E., Gu, S., & Poole, B. (2016). Xác định lại phân loại với Gumbel-Softmax. bản in sẵn arXiv arXiv: 1611.01144.

Maddison, CJ (2016). Một mô hình quá trình Poisson cho Monte Carlo. bản in sẵn arXiv arXiv: 1602.05986.

— Tim
nguồn

5

Đây là một cách phổ biến để tránh tràn / tràn.

$m = \max_i \log(\theta_i)$

$\theta_i' = \exp( \log(\theta_i) - m )$

$\theta' = [\theta_1' , \theta_2',...]$ .

— Siddharth Gopal
nguồn

1

This works as long as the difference between any one value and the max isn't too great---when that happens, the exp can lose precision, leading to distributions like [1.0, 3.45e-66, 0.0, 7.54e-121]. I'd like to hold out for some answer that is robust even in that case. But for now I'm upvoting your answer.

— Josh Hansen