PCA xác suất
PCA xác suất là một mô hình biến tiềm ẩn Gaussian có dạng sau. Các quan sát bao gồm các biến , các biến tiềm ẩn được giả sử bao gồm các biến ; các biến trước đó là một biến số đơn vị trung bình bằng 0 Gaussian: và phân phối có điều kiện của các biến quan sát được đưa ra các biến tiềm ẩn là
Nó chỉ ra rằng giải pháp khả năng tối đa cho mô hình này được đưa ra bởi các thành phần PCA đầu tiên của dữ liệu: các cột của D z ∈ R M M < D z ∼ N ( 0 , I ) ,x∈RDDz∈RMM<D
z∼N(0,I),
M W MLx|z∼N(Wz+μ,σ2I).
MWML tỷ lệ thuận với các hàm riêng trên cùng của ma trận hiệp phương sai (các trục chính). Xem Tipping & Giám mục để biết chi tiết.
Tại sao sử dụng Gaussian trước?
Đối với bất kỳ ưu tiên nào khác (hoặc ít nhất là đối với hầu hết các linh mục khác), giải pháp khả năng tối đa sẽ không tương ứng với giải pháp PCA tiêu chuẩn, vì vậy sẽ không có lý do nào để gọi mô hình biến tiềm ẩn này là "PCA xác suất". Gaussian trước đó là thứ tạo ra PCA.N(0,I)
Hầu hết các linh mục khác sẽ làm cho vấn đề phức tạp hơn nhiều hoặc thậm chí khó phân tích. Có phân phối có điều kiện Gaussian trước và Gaussian dẫn đến phân phối biên Gaussian và dễ dàng thấy rằng ma trận hiệp phương sai của nó sẽ được đưa ra bởi . Các bản phân phối không phải Gaussian khó làm việc hơn nhiều.W ⊤ W + σ 2 tôip(x)W⊤W+σ2I
Có phân phối biên Gaussian cũng hấp dẫn bởi vì nhiệm vụ của PCA tiêu chuẩn là mô hình hóa ma trận hiệp phương sai (tức là khoảnh khắc thứ hai); PCA không quan tâm đến những khoảnh khắc cao hơn của phân phối dữ liệu. Phân phối Gaussian được mô tả đầy đủ bởi hai thời điểm đầu tiên: trung bình và hiệp phương sai. Chúng tôi không muốn sử dụng các bản phân phối phức tạp / linh hoạt hơn, vì PCA không xử lý các khía cạnh này của dữ liệu.p(x)
Các Gaussian trước có đơn vị ma trận hiệp phương sai vì ý tưởng là để có các biến tiềm ẩn không tương quan đó làm phát sinh các hiệp phương sai quan sát chỉ qua loadings .W