Có bao nhiêu kích thước để giảm khi làm PCA?


12

Làm thế nào để chọn K cho PCA? K là số lượng kích thước để chiếu xuống. Yêu cầu duy nhất là không mất quá nhiều thông tin. Tôi hiểu nó phụ thuộc vào dữ liệu, nhưng tôi đang tìm kiếm một tổng quan chung đơn giản về những đặc điểm cần xem xét khi chọn K.


Phụ thuộc vào việc mất dữ liệu có thể chấp nhận được, và cả vào báo cáo vấn đề nữa!
Dawny33

Tôi đồng ý với hai câu trả lời dưới đây. Tuy nhiên, bạn có biết có một cách đơn giản để định lượng sự mất thông tin, tức là sử dụng đường chéo SVD của ma trận hiệp phương sai không?
yuqian 17/03/2016

Câu trả lời:


13

Sau khi thực hiện thuật toán PCA, bạn nhận được các thành phần chính, được sắp xếp theo lượng thông tin họ nắm giữ. Nếu bạn giữ toàn bộ thì không có thông tin nào bị mất. Loại bỏ chúng từng cái một và chiếu chúng trở lại không gian ban đầu, bạn có thể tính toán mất thông tin. Bạn có thể vẽ biểu đồ mất thông tin này theo số lượng thành phần chính bị loại bỏ và xem liệu nó có tạo ra một "khuỷu tay" hay không. Rất nhiều điều này phụ thuộc vào trường hợp sử dụng của bạn mặc dù.


(+1) Vâng, đơn giản như vậy :)
Dawny33

3

Tôi thường kiểm tra tỷ lệ phần trăm của thông tin được giữ bởi giá trị K. Giả sử trong số 8 lĩnh vực, 2 trong số đó nắm giữ 90% thông tin. Sau đó, không có điểm nào trong đó bao gồm 6 hoặc 5 trường khác. Nếu bạn biết dữ liệu mnist, trong số 768 đầu vào, tôi chỉ sử dụng 250, điều này làm giảm độ chính xác của tôi từ 83 đến 96%. Thực tế là nhiều chiều mang lại nhiều vấn đề hơn. Vì vậy, cắt chúng đi. Tôi thường chỉ lấy K, người chỉ nắm giữ 90% thông tin và nó hoạt động với tôi.


Xin chào .. Tôi có một vấn đề tương tự khi tôi muốn sử dụng x% thông tin và không biết phải làm thế nào? Tôi dự định sử dụng IPCA để làm điều này Tôi có thể rời khỏi n_components = Không nhưng làm cách nào để tôi quyết định các tính năng có x% dữ liệu là gì?
Arsenal cuồng tín
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.