Khi nào thì thích hợp sử dụng PCA làm bước tiền xử lý?


8

Tôi hiểu rằng PCA được sử dụng để giảm kích thước để có thể vẽ các bộ dữ liệu ở dạng 2D hoặc 3D. Nhưng tôi cũng đã thấy mọi người áp dụng PCA như một bước tiền xử lý trong các tình huống phân loại trong đó họ áp dụng PCA để giảm số lượng các tính năng, sau đó họ sử dụng một số Thành phần chính (các hàm riêng của ma trận hiệp phương sai) làm các tính năng mới.

Những câu hỏi của tôi:

  • Những ảnh hưởng nào đến hiệu suất phân loại?

  • Khi nào nên áp dụng một bước tiền xử lý như vậy?

  • Tôi có một bộ dữ liệu với 10 tính năng là số thực và 600 tính năng nhị phân đại diện cho các tính năng phân loại, sử dụng mã hóa một-nhiều để thể hiện chúng. Áp dụng PCA ở đây có ý nghĩa và làm cho kết quả tốt hơn?

ps nếu câu hỏi quá rộng, tôi sẽ rất biết ơn nếu bạn cung cấp một bài báo hoặc hướng dẫn giải thích rõ hơn về các chi tiết sử dụng PCA theo cách đó.

Sau khi đọc một chút, tôi thấy rằng có thể tốt hơn khi sử dụng Phân tích ngữ nghĩa tiềm ẩn để giảm số lượng các tính năng nhị phân cho các thuộc tính phân loại? Vì vậy, tôi không chạm vào các tính năng có giá trị thực mà chỉ xử lý trước các tính năng nhị phân và sau đó kết hợp các tính năng có giá trị thực với các tính năng mới và huấn luyện trình phân loại của tôi. Bạn nghĩ sao?

Câu trả lời:


5

Sử dụng PCA để lựa chọn tính năng (loại bỏ các tính năng không dự đoán) là một cách cực kỳ tốn kém để thực hiện. Đại số PCA thường là O (n ^ 3). Thay vào đó, một cách tiếp cận tốt hơn và hiệu quả hơn sẽ là sử dụng thước đo sự phụ thuộc lẫn nhau giữa tính năng và lớp - đối với Thông tin lẫn nhau này có xu hướng hoạt động rất tốt, hơn nữa đó là biện pháp phụ thuộc duy nhất mà a) khái quát hóa hoàn toàn và b) thực sự có một nền tảng triết học tốt dựa trên sự phân kỳ Kullback-Leibler.

Ví dụ: chúng tôi tính toán (sử dụng xác suất khả năng tối đa xấp xỉ với một số làm mịn)

MI-trên-mong đợi = MI (F, C) - E_ {X, N} [MI (X, C)]

trong đó thuật ngữ thứ hai là "thông tin lẫn nhau được mong đợi đưa ra N ví dụ". Sau đó, chúng tôi có các tính năng M hàng đầu sau khi sắp xếp theo MI-dự kiến.

Lý do tại sao một người muốn sử dụng PCA là nếu người ta mong đợi rằng nhiều tính năng trong thực tế phụ thuộc. Điều này sẽ đặc biệt hữu ích cho Naive Bayes nơi độc lập được giả định. Bây giờ các bộ dữ liệu tôi đã làm việc luôn quá lớn để sử dụng PCA, vì vậy tôi không sử dụng PCA và chúng tôi phải sử dụng các phương pháp tinh vi hơn. Nhưng nếu tập dữ liệu của bạn nhỏ và bạn không có thời gian để điều tra các phương pháp tinh vi hơn, thì bằng mọi cách hãy tiếp tục và áp dụng PCA vượt trội.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.