Tôi hiểu rằng PCA được sử dụng để giảm kích thước để có thể vẽ các bộ dữ liệu ở dạng 2D hoặc 3D. Nhưng tôi cũng đã thấy mọi người áp dụng PCA như một bước tiền xử lý trong các tình huống phân loại trong đó họ áp dụng PCA để giảm số lượng các tính năng, sau đó họ sử dụng một số Thành phần chính (các hàm riêng của ma trận hiệp phương sai) làm các tính năng mới.
Những câu hỏi của tôi:
Những ảnh hưởng nào đến hiệu suất phân loại?
Khi nào nên áp dụng một bước tiền xử lý như vậy?
Tôi có một bộ dữ liệu với 10 tính năng là số thực và 600 tính năng nhị phân đại diện cho các tính năng phân loại, sử dụng mã hóa một-nhiều để thể hiện chúng. Áp dụng PCA ở đây có ý nghĩa và làm cho kết quả tốt hơn?
ps nếu câu hỏi quá rộng, tôi sẽ rất biết ơn nếu bạn cung cấp một bài báo hoặc hướng dẫn giải thích rõ hơn về các chi tiết sử dụng PCA theo cách đó.
Sau khi đọc một chút, tôi thấy rằng có thể tốt hơn khi sử dụng Phân tích ngữ nghĩa tiềm ẩn để giảm số lượng các tính năng nhị phân cho các thuộc tính phân loại? Vì vậy, tôi không chạm vào các tính năng có giá trị thực mà chỉ xử lý trước các tính năng nhị phân và sau đó kết hợp các tính năng có giá trị thực với các tính năng mới và huấn luyện trình phân loại của tôi. Bạn nghĩ sao?