Tại sao PCA xác suất sử dụng Gaussian trước các biến tiềm ẩn?

Tôi hiện đang đọc các bài báo về PCA xác suất và tôi tự hỏi tại sao Gaussian trước (chứ không phải một số trước khác) được chọn cho các biến tiềm ẩn? Có phải chỉ vì nó đơn giản hoặc có một lý do khác?

Người giới thiệu:

Tipping & Bishop, 1999, Phân tích thành phần chính xác suất - ngay dưới eq. (2)
Tipping & Bishop, 1999, Hỗn hợp các máy phân tích thành phần chính xác suất - eq. (4)

— Irminsul
nguồn

PCA xác suất

PCA xác suất là một mô hình biến tiềm ẩn Gaussian có dạng sau. Các quan sát bao gồm các biến , các biến tiềm ẩn được giả sử bao gồm các biến ; các biến trước đó là một biến số đơn vị trung bình bằng 0 Gaussian: và phân phối có điều kiện của các biến quan sát được đưa ra các biến tiềm ẩn là Nó chỉ ra rằng giải pháp khả năng tối đa cho mô hình này được đưa ra bởi các thành phần PCA đầu tiên của dữ liệu: các cột của $\mathbf x \in \mathbb R^D$ $D$ $\mathbf z \in \mathbb R^M$ $M<D$

z \sim N (0, I),

$\mathbf z \sim \mathcal N(\mathbf 0, \mathbf I),$

x | z \sim N (W z + μ, σ^{2} I) .

$\mathbf x | \mathbf z \sim \mathcal N(\mathbf W\mathbf z+\boldsymbol \mu, \sigma^2 \mathbf I).$

M

$M$

W_{ML}

$\mathbf W_\text{ML}$ tỷ lệ thuận với các hàm riêng trên cùng của ma trận hiệp phương sai (các trục chính). Xem Tipping & Giám mục để biết chi tiết.

Tại sao sử dụng Gaussian trước?

Đối với bất kỳ ưu tiên nào khác (hoặc ít nhất là đối với hầu hết các linh mục khác), giải pháp khả năng tối đa sẽ không tương ứng với giải pháp PCA tiêu chuẩn, vì vậy sẽ không có lý do nào để gọi mô hình biến tiềm ẩn này là "PCA xác suất". Gaussian trước đó là thứ tạo ra PCA. $\mathcal N(\mathbf 0, \mathbf I)$
Hầu hết các linh mục khác sẽ làm cho vấn đề phức tạp hơn nhiều hoặc thậm chí khó phân tích. Có phân phối có điều kiện Gaussian trước và Gaussian dẫn đến phân phối biên Gaussian và dễ dàng thấy rằng ma trận hiệp phương sai của nó sẽ được đưa ra bởi . Các bản phân phối không phải Gaussian khó làm việc hơn nhiều. $p(\mathbf x)$ $\mathbf W^\top \mathbf W + \sigma^2\mathbf I$
Có phân phối biên Gaussian cũng hấp dẫn bởi vì nhiệm vụ của PCA tiêu chuẩn là mô hình hóa ma trận hiệp phương sai (tức là khoảnh khắc thứ hai); PCA không quan tâm đến những khoảnh khắc cao hơn của phân phối dữ liệu. Phân phối Gaussian được mô tả đầy đủ bởi hai thời điểm đầu tiên: trung bình và hiệp phương sai. Chúng tôi không muốn sử dụng các bản phân phối phức tạp / linh hoạt hơn, vì PCA không xử lý các khía cạnh này của dữ liệu. $p(\mathbf x)$
Các Gaussian trước có đơn vị ma trận hiệp phương sai vì ý tưởng là để có các biến tiềm ẩn không tương quan đó làm phát sinh các hiệp phương sai quan sát chỉ qua loadings . $\mathbf W$

— amip
nguồn

Cảm ơn bạn ! Nó thực sự rõ ràng! Đối với điểm đầu tiên tôi đồng ý nhưng dường như nó là một câu trả lời cho câu hỏi 'Tại sao mô hình này được gọi là PPCA?' Điểm 2 đến 4 chính xác là những gì tôi đang mong đợi, đáng lẽ tôi nên biến câu hỏi thành 'Lợi ích của việc sử dụng gaussian trước là gì?'

— Irminsul