Đối với một cuộc thi Kaggle gần đây, tôi (thủ công) đã xác định 10 tính năng bổ sung cho tập huấn luyện của mình, sau đó sẽ được sử dụng để huấn luyện một trình phân loại rừng ngẫu nhiên. Tôi quyết định chạy PCA trên bộ dữ liệu với các tính năng mới, để xem chúng so sánh với nhau như thế nào. Tôi thấy rằng ~ 98% phương sai được thực hiện bởi thành phần đầu tiên (hàm riêng đầu tiên). Sau đó, tôi đã đào tạo trình phân loại nhiều lần, thêm một tính năng cùng một lúc và sử dụng xác thực chéo và lỗi RMS để so sánh chất lượng của phân loại. Tôi thấy rằng các phân loại được cải thiện với mỗi tính năng bổ sung và kết quả cuối cùng (với tất cả 10 tính năng mới) tốt hơn nhiều so với lần chạy đầu tiên với (tính năng) 2 tính năng.
Cho rằng PCA tuyên bố ~ 98% phương sai là trong thành phần đầu tiên của bộ dữ liệu của tôi, tại sao chất lượng phân loại lại cải thiện nhiều như vậy?
Điều này sẽ đúng với các phân loại khác? RF chia tỷ lệ trên nhiều lõi, do đó, việc đào tạo nhanh hơn nhiều so với (nói) SVM.
Điều gì xảy ra nếu tôi đã chuyển đổi tập dữ liệu vào không gian "PCA" và chạy trình phân loại trên không gian được chuyển đổi. Kết quả của tôi sẽ thay đổi như thế nào?