Thuộc tính của PCA cho các quan sát phụ thuộc


23

Chúng tôi thường sử dụng PCA như một kỹ thuật giảm kích thước cho dữ liệu trong đó các trường hợp được giả định là iid

Câu hỏi: Những sắc thái điển hình trong việc áp dụng PCA cho dữ liệu phụ thuộc, không iid là gì? Những thuộc tính tốt / hữu ích nào của PCA chứa dữ liệu iid bị xâm phạm (hoặc mất hoàn toàn)?

Ví dụ, dữ liệu có thể là một chuỗi thời gian đa biến trong đó trường hợp tự tương quan hoặc không đồng nhất điều kiện tự phát (ARCH) có thể được dự kiến.

Một số câu hỏi liên quan về việc áp dụng PCA cho dữ liệu chuỗi thời gian đã được hỏi trước đây, ví dụ 1 , 2 , 3 , 4 , nhưng tôi đang tìm kiếm một câu trả lời tổng quát và toàn diện hơn (không cần phải mở rộng nhiều về từng điểm riêng lẻ).

Chỉnh sửa: Theo ghi nhận của @ttnphns, bản thân PCA không phải là một phân tích suy luận. Tuy nhiên, người ta có thể quan tâm đến hiệu suất tổng quát của PCA, tức là tập trung vào đối tác dân số của PCA mẫu. Ví dụ như được viết trong Nadler (2008) :

Giả sử dữ liệu đã cho là một mẫu hữu hạn và ngẫu nhiên từ phân phối (thường không xác định), một câu hỏi lý thuyết và thực tế thú vị là mối quan hệ giữa các kết quả PCA mẫu được tính toán từ dữ liệu hữu hạn và các mô hình dân số cơ bản.

Tài liệu tham khảo:


14
Chỉ cần lưu ý. Bản thân PCA không phải là một phân tích suy luận. Nó là một phép biến đổi của tập dữ liệu đa biến số; cốt lõi của nó chỉ là svd hoặc eigendecro. Do đó, nó không làm cho giả định độc lập quan sát. Giả định phát sinh khi chúng tôi sử dụng PCA làm công cụ thống kê để phân tích các mẫu từ dân số. Nhưng chúng không phải là giả định của PCA. Ví dụ, kiểm tra tính toàn cầu để quyết định xem PCA có hợp lý để giảm dữ liệu không đòi hỏi tính độc lập hay không, và thử nghiệm có thể trông giống như thử nghiệm giả định "bên trong PCA", nhưng thực tế đó là thử nghiệm "bên ngoài".
ttnphns

@ttnphns, điểm rất tốt, cảm ơn bạn. Nếu bạn thấy một cách gọn gàng để chỉnh sửa bài viết của tôi, hãy thoải mái. Tôi cũng sẽ nghĩ về nó.
Richard Hardy

1
Richard, câu hỏi của bạn là tốt và quan trọng (+1). Có lẽ tôi muốn nói lại một chút theo cách như "Chúng tôi thường sử dụng PCA như một cách giảm kích thước cho dữ liệu trong đó các trường hợp được giả định ... Các sắc thái điển hình trong việc áp dụng PCA cho dữ liệu chuỗi thời gian trong đó các trường hợp (thời gian điểm) có độ trễ phụ thuộc lẫn nhau ...? "
ttnphns

1
@amoeba, phải rồi. Nhưng chúng tôi hầu như không bao giờ dừng lại ở việc chỉ tải các PC. Trong các bước thường tuân theo PCA, chúng ta nên chú ý điều gì dưới sự không bình thường? Tôi hy vọng một câu trả lời có thể tốt hơn câu hỏi (trong công thức hiện tại của nó). Nếu bạn nhìn vào nó một cách lỏng lẻo / sáng tạo, có lẽ bạn có thể đưa ra một số điểm tốt.
Richard Hardy

2
PCA đơn giản chỉ tôn trọng các liên kết "ngang" (nghĩa là giữa các cột) và bỏ qua "dọc" (giữa các trường hợp): ma trận hiệp phương sai của các cột là như nhau nếu bạn xáo trộn thứ tự các trường hợp. Cho dù điều này có thể được gọi là "không có giả định cho quan hệ nối tiếp vụ án" hay "giả định cho các trường hợp độc lập được thực hiện" là một vấn đề của hương vị. Giả định iid là mặc định trong phân tích dữ liệu và vì vậy các phương pháp đơn giản không chú ý đặc biệt đến thứ tự trường hợp, như PCA, có thể được coi là "hỗ trợ im lặng" cho giả định iid.
ttnphns

Câu trả lời:


1

Có lẽ, bạn có thể thêm thành phần thời gian như một tính năng bổ sung cho các điểm được lấy mẫu của mình và bây giờ chúng là iid? Về cơ bản, các điểm dữ liệu ban đầu có điều kiện đúng thời gian:

p(xiti)p(xi)

Nhưng, nếu chúng ta xác định , thì chúng ta có:xi={xi,ti}

p(xiti)=p(xi)

... Và các mẫu dữ liệu hiện đang độc lập lẫn nhau.

Trong thực tế, bằng cách bao gồm thời gian là một tính năng trong mỗi điểm dữ liệu, PCA có thể có kết quả là một thành phần chỉ đơn giản chỉ dọc theo trục tính năng thời gian. Nhưng nếu bất kỳ tính năng nào tương quan với tính năng thời gian, một thành phần có thể bao gồm một hoặc nhiều tính năng này, cũng như tính năng thời gian.


1
Cảm ơn câu trả lời. Đó sẽ là một trường hợp rất đặc biệt khi thời gian đi vào tuyến tính. Một hiện tượng phổ biến hơn là, ví dụ, tự tương quan trong đó thời gian tự nó không đóng vai trò là một tính năng.
Richard Hardy

xtθxt1xtxt1θxt1

xt1
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.