(Đây là một câu hỏi nhẹ) Gần đây tôi đang học Phân tích thành phần chính và dường như có rất nhiều vấn đề:
- Bạn phải chuyển đổi dữ liệu thành cùng một tỷ lệ trước khi áp dụng PCA, nhưng cách thực hiện chia tỷ lệ tính năng là không xác định. Tiêu chuẩn hóa? Thu nhỏ theo đơn vị chiều dài? Chuyển đổi log? Biến đổi Box-Cox? Tôi tin rằng tất cả chúng đều hoạt động, nhưng chúng trả lời các câu hỏi khác nhau và không cần thiết phải tìm ra sự biến đổi gây ra vấn đề.
- Để thực hiện PCA, các giá trị riêng và hàm riêng phải được tính toán, nhưng các dấu hiệu của hàm riêng không được xác định. Ngay từ cái nhìn đầu tiên, SVD có thể là một giải pháp tốt, vì nó cho kết quả tương tự trên các triển khai khác nhau. Tuy nhiên, theo tôi hiểu, kết quả của SVD chỉ là một sự lựa chọn tùy ý nhưng có thể lặp lại của người bản địa.
- Các thành phần chính là sự kết hợp tuyến tính của các biến, nhưng chúng có ý nghĩa không? Ý tôi là, bạn không thể thêm nhiệt độ cơ thể của một con khỉ gấp mười lần chiều dài đuôi của nó, bởi vì chúng có đơn vị khác nhau. (Nói về đơn vị, bạn nên sử dụng hệ thống đơn vị nào là một khía cạnh khác trong điểm đầu tiên của tôi)
- Khi cố gắng diễn giải các thành phần chính, bạn có nên kiểm tra tải (hệ số) của thành phần chính thứ trên phần tử thứ hay tương quan của chúng ? Rencher (1992) khuyên bạn chỉ nên nhìn vào các hệ số, nhưng theo tôi biết, không có sự đồng thuận nào về vấn đề này.
Tóm lại, PCA là một phương pháp thống kê (hoặc có thể nói là toán học) trông khá non nớt đối với tôi, vì nó giới thiệu nhiều tính chủ quan và thiên vị trong suốt quá trình. Tuy nhiên, nó vẫn là một trong những phương pháp phân tích đa biến được sử dụng rộng rãi nhất. Tại sao lại như vậy? Làm thế nào để mọi người vượt qua những vấn đề tôi đã nêu ra? Họ thậm chí còn nhận thức được chúng?
Người giới thiệu:
Rencher, AC Diễn giải các chức năng phân biệt đối xử Canonical, Biến thể Canonical và các thành phần chính. Nhà thống kê người Mỹ, 46 (1992), 217 Mạnh225.