Tại sao mọi người sử dụng PCA khi nó có quá nhiều vấn đề?


8

(Đây là một câu hỏi nhẹ) Gần đây tôi đang học Phân tích thành phần chính và dường như có rất nhiều vấn đề:

  1. Bạn phải chuyển đổi dữ liệu thành cùng một tỷ lệ trước khi áp dụng PCA, nhưng cách thực hiện chia tỷ lệ tính năng là không xác định. Tiêu chuẩn hóa? Thu nhỏ theo đơn vị chiều dài? Chuyển đổi log? Biến đổi Box-Cox? Tôi tin rằng tất cả chúng đều hoạt động, nhưng chúng trả lời các câu hỏi khác nhau và không cần thiết phải tìm ra sự biến đổi gây ra vấn đề.
  2. Để thực hiện PCA, các giá trị riêng và hàm riêng phải được tính toán, nhưng các dấu hiệu của hàm riêng không được xác định. Ngay từ cái nhìn đầu tiên, SVD có thể là một giải pháp tốt, vì nó cho kết quả tương tự trên các triển khai khác nhau. Tuy nhiên, theo tôi hiểu, kết quả của SVD chỉ là một sự lựa chọn tùy ý nhưng có thể lặp lại của người bản địa.
  3. Các thành phần chính là sự kết hợp tuyến tính của các biến, nhưng chúng có ý nghĩa không? Ý tôi là, bạn không thể thêm nhiệt độ cơ thể của một con khỉ gấp mười lần chiều dài đuôi của nó, bởi vì chúng có đơn vị khác nhau. (Nói về đơn vị, bạn nên sử dụng hệ thống đơn vị nào là một khía cạnh khác trong điểm đầu tiên của tôi)
  4. Khi cố gắng diễn giải các thành phần chính, bạn có nên kiểm tra tải (hệ số) của thành phần chính thứ trên phần tử thứ hay tương quan của chúng ? Rencher (1992) khuyên bạn chỉ nên nhìn vào các hệ số, nhưng theo tôi biết, không có sự đồng thuận nào về vấn đề này.iyijXjcorr(yi,Xj)

Tóm lại, PCA là một phương pháp thống kê (hoặc có thể nói là toán học) trông khá non nớt đối với tôi, vì nó giới thiệu nhiều tính chủ quan và thiên vị trong suốt quá trình. Tuy nhiên, nó vẫn là một trong những phương pháp phân tích đa biến được sử dụng rộng rãi nhất. Tại sao lại như vậy? Làm thế nào để mọi người vượt qua những vấn đề tôi đã nêu ra? Họ thậm chí còn nhận thức được chúng?

Người giới thiệu:

Rencher, AC Diễn giải các chức năng phân biệt đối xử Canonical, Biến thể Canonical và các thành phần chính. Nhà thống kê người Mỹ, 46 (1992), 217 Mạnh225.


PCA khá trưởng thành, nhưng vấn đề # 1 của bạn là vô cùng quan trọng. Bạn có thể giải quyết OK với các vấn đề khác, ví dụ: sử dụng hồi quy tuyến tính đơn giản để điều chỉnh lại các PC theo các biến thô. Cũng có một số cách để ước tính PC cho mục đích mô tả / giải mã. Tôi đi sâu vào một số trong số này trong cuốn sách Chiến lược mô hình hồi quy và ghi chú khóa học của tôi .
Frank Harrell

2
Vấn đề 2: Tại sao mọi người sử dụng căn bậc hai khi họ có quá nhiều vấn đề? Nếu bạn lấy căn bậc hai của 4, nó có thể là 2, nhưng nó cũng có thể là -2. Thoạt nhìn, lấy giá trị tích cực có thể là một giải pháp tốt, nhưng nó chỉ là một lựa chọn dấu hiệu tùy ý nhưng có thể lặp lại. Rễ vuông trông khá non nớt đối với tôi.
amip

1
@amoeba Trong bối cảnh PCA, vấn đề # 2 có thể nghiêm trọng hơn nhiều IMO. Nếu bạn chỉ sử dụng thành phần chính đầu tiên, thì như trong trường hợp căn bậc hai, có 2 kết quả có thể xảy ra (+, -). Tuy nhiên, nếu bạn xem xét thành phần chính, bạn sẽ có dấu hiệu không xác định, dẫn đến kết quả khác nhau . Với , có +++, ++ -, + - +, + -, .- ++, - + -, - +, ---, đã có rất nhiều! pp2pp=3
nalzok

4
"Tính độc đoán" chỉ là một yếu tố của cách chúng tôi đại diện cho kết quả PCA. Không có sự tùy tiện đối với PCA: các không gian điện tử mà nó hoạt động được xác định hoàn toàn tốt. Các vấn đề (1) và (3) là lợi thế của PCA, vì chúng cho phép một người sử dụng kiến ​​thức chủ đề và các mục tiêu của phân tích một cách thích hợp. Nói đến điều này là "chưa trưởng thành" thay vì bỏ lỡ toàn bộ điểm phân tích thống kê, IMHO, là để giải quyết các vấn đề thực sự theo cách sáng tạo và nguyên tắc (trái ngược với việc đổ dữ liệu vào hộp đen).
whuber

3
Điều tôi chưa thấy ở đây được đề cập là nhiều người sử dụng PCA giống như cách bạn sử dụng biểu đồ, biểu đồ mật độ hoặc biểu đồ phân tán: Một phương tiện để kiểm tra nhanh dữ liệu, thay vì giải pháp cuối cùng cho một vấn đề. PCA rất hữu ích cho mục đích này khi số lượng kích thước tăng lên, nhưng tất nhiên sẽ có nhiều thông tin hơn nếu cần thận trọng trong việc lựa chọn liệu và cách chia tỷ lệ.
Frans Rodenburg

Câu trả lời:


4

"Tính độc đoán" chỉ là một yếu tố của cách chúng tôi đại diện cho kết quả PCA. Không có sự tùy tiện đối với PCA: các không gian điện tử mà nó hoạt động được xác định hoàn toàn tốt. Các vấn đề (1) và (3) là lợi thế của PCA, vì chúng cho phép một người sử dụng kiến ​​thức chủ đề và các mục tiêu của phân tích một cách thích hợp. Nói đến điều này là "chưa trưởng thành" thay vì bỏ lỡ toàn bộ điểm phân tích thống kê, IMHO, là để giải quyết các vấn đề thực sự theo cách sáng tạo và nguyên tắc (trái ngược với việc bỏ dữ liệu vào hộp đen).

- ai

Điều tôi chưa thấy ở đây được đề cập là nhiều người sử dụng PCA giống như cách bạn sử dụng biểu đồ, biểu đồ mật độ hoặc biểu đồ phân tán: Một phương tiện để kiểm tra nhanh dữ liệu, thay vì giải pháp cuối cùng cho một vấn đề. PCA rất hữu ích cho mục đích này khi số lượng kích thước tăng lên, nhưng tất nhiên sẽ có nhiều thông tin hơn nếu cần thận trọng trong việc lựa chọn liệu và cách chia tỷ lệ.

- Frans Rodenburg


2
Tôi đã sao chép những bình luận này như một câu trả lời wiki cộng đồng bởi vì chúng ít nhiều là câu trả lời cho câu hỏi này. Chúng tôi có một khoảng cách lớn giữa câu trả lời và câu hỏi. Ít nhất một phần của vấn đề là một số câu hỏi được trả lời trong các bình luận: nếu các bình luận trả lời câu hỏi là câu trả lời thay vào đó, chúng ta sẽ có ít câu hỏi chưa được trả lời hơn.
mkt - Tái lập Monica

3
+1. Bạn không cần phải trả lời như vậy CW, btw; nhưng tất nhiên là tốt nếu bạn thích làm như vậy.
amip

@amoeba Cảm ơn, tôi thường cảm thấy thoải mái hơn khi làm điều đó nếu tôi thêm một số đóng góp ban đầu. Nhưng tôi sẽ ghi nhớ nó.
mkt - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.