Hình dung một triệu, phiên bản PCA


31

Có thể hình dung đầu ra của Phân tích thành phần chính theo những cách mang lại cái nhìn sâu sắc hơn chỉ là các bảng tóm tắt? Có thể làm điều đó khi số lượng quan sát lớn, giả sử ~ 1e4? Và có thể làm điều đó trong R [chào mừng các môi trường khác] không?


2
Một vài câu hỏi: Bạn có bao nhiêu thành phần? Ngoài kích thước mẫu, có bất cứ điều gì làm cho việc hiển thị đầu ra PCA này cần khác với hiển thị các biến liên tục khác mà người ta có thể xử lý không? Bạn đang cố gắng để tương phản điểm số của các nhóm khác nhau, và nếu có bao nhiêu? Nói chung, bạn đang hy vọng đạt được gì với màn hình của bạn?
rolando2

Câu trả lời:


53

Các biplot là một công cụ hữu ích để hình dung ra kết quả của PCA. Nó cho phép bạn hình dung các điểm và chỉ dẫn thành phần chính đồng thời. Với 10.000 quan sát có thể bạn sẽ gặp vấn đề với âm mưu quá mức. Alpha trộn có thể giúp ở đó.

Đây là một biplot PC của dữ liệu rượu vang từ kho lưu trữ UCI ML :

PC Biplot dữ liệu rượu từ kho lưu trữ UCI ML

Các điểm tương ứng với điểm số PC1 và PC2 của mỗi lần quan sát. Các mũi tên biểu thị mối tương quan của các biến với PC1 và PC2. Vòng tròn màu trắng cho biết phạm vi tối đa theo lý thuyết của các mũi tên. Các hình elip là hình elip dữ liệu 68% cho mỗi trong số 3 loại rượu vang trong dữ liệu.

Tôi đã tạo mã để tạo cốt truyện này có sẵn ở đây .


5
Một bổ sung thực sự nổ.
rolando2

1

p×2VVVT

V

4

Một âm mưu Wachter có thể giúp bạn hình dung các giá trị riêng của PCA. Nó thực chất là một âm mưu QQ của các giá trị bản địa chống lại sự phân phối Marchenko-Pastur. Tôi có một ví dụ ở đây: Biểu đồ Wachter hiển thị một giá trị riêngCó một giá trị riêng vượt trội nằm ngoài phân phối Marchenko-Pastur. Sự hữu ích của loại cốt truyện này phụ thuộc vào ứng dụng của bạn.


7
Sẽ rất hữu ích khi biết thêm ở đây (có lẽ một số giải thích bổ sung & / hoặc một số liên kết hữu ích). Phân phối Marchenko-Pastur là gì? Làm thế nào nó liên quan đến PCA? Điều đó có ý nghĩa gì đối với kết quả của bạn nếu nó giữ hay không? (v.v.)
gung - Tái lập Monica

0

Bạn cũng có thể sử dụng gói tâm lý.

Điều này có chứa một phương thức plot.factor, sẽ vẽ các thành phần khác nhau dựa trên nhau theo kiểu ma trận phân tán.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.