Chúng tôi thường sử dụng PCA như một kỹ thuật giảm kích thước cho dữ liệu trong đó các trường hợp được giả định là iid
Câu hỏi: Những sắc thái điển hình trong việc áp dụng PCA cho dữ liệu phụ thuộc, không iid là gì? Những thuộc tính tốt / hữu ích nào của PCA chứa dữ liệu iid bị xâm phạm (hoặc mất hoàn toàn)?
Ví dụ, dữ liệu có thể là một chuỗi thời gian đa biến trong đó trường hợp tự tương quan hoặc không đồng nhất điều kiện tự phát (ARCH) có thể được dự kiến.
Một số câu hỏi liên quan về việc áp dụng PCA cho dữ liệu chuỗi thời gian đã được hỏi trước đây, ví dụ 1 , 2 , 3 , 4 , nhưng tôi đang tìm kiếm một câu trả lời tổng quát và toàn diện hơn (không cần phải mở rộng nhiều về từng điểm riêng lẻ).
Chỉnh sửa: Theo ghi nhận của @ttnphns, bản thân PCA không phải là một phân tích suy luận. Tuy nhiên, người ta có thể quan tâm đến hiệu suất tổng quát của PCA, tức là tập trung vào đối tác dân số của PCA mẫu. Ví dụ như được viết trong Nadler (2008) :
Giả sử dữ liệu đã cho là một mẫu hữu hạn và ngẫu nhiên từ phân phối (thường không xác định), một câu hỏi lý thuyết và thực tế thú vị là mối quan hệ giữa các kết quả PCA mẫu được tính toán từ dữ liệu hữu hạn và các mô hình dân số cơ bản.
Tài liệu tham khảo:
- Nadler, Boaz. "Kết quả gần đúng mẫu hữu hạn cho phân tích thành phần chính: Cách tiếp cận nhiễu loạn ma trận." Biên niên sử thống kê (2008): 2791-2817.