PCA có thể được áp dụng cho dữ liệu chuỗi thời gian không?


21

Tôi hiểu rằng Phân tích thành phần chính (PCA) về cơ bản có thể được áp dụng cho dữ liệu cắt ngang. PCA có thể được sử dụng cho dữ liệu chuỗi thời gian một cách hiệu quả bằng cách chỉ định năm là biến chuỗi thời gian và chạy PCA bình thường không? Tôi đã thấy rằng PCA động hoạt động cho dữ liệu bảng và mã hóa trong Stata được thiết kế cho dữ liệu bảng và không phải là chuỗi thời gian. Có loại PCA cụ thể nào hoạt động trên dữ liệu chuỗi thời gian không?

Cập nhật. Hãy để tôi giải thích chi tiết.

Tôi hiện đang xây dựng một chỉ số cho Cơ sở hạ tầng ở Ấn Độ với các biến số như chiều dài đường bộ, chiều dài tuyến đường sắt, công suất phát điện, số lượng thuê bao điện thoại, v.v. Tôi có 12 biến trong suốt 22 năm cho 1 quốc gia. Mặc dù tôi đã xem xét các bài báo áp dụng PCA theo chuỗi thời gian và thậm chí cả dữ liệu bảng, PCA được thiết kế cho dữ liệu cắt ngang giả định giả định iid. Bảng điều khiển và dữ liệu cắt ngang vi phạm nó và PCA không tính đến kích thước chuỗi thời gian trong đó. Tôi đã thấy PCA động chỉ được áp dụng trên dữ liệu bảng. Tôi muốn biết nếu có một PCA cụ thể được áp dụng theo chuỗi thời gian hoặc chạy PCA tĩnh với năm được xác định là biến chuỗi thời gian sẽ thực hiện công việc?


2
Phân tích phổ số ít (SSA) thường được gọi là PCA cho chuỗi thời gian. vi.wikipedia.org/wiki/Singular_spectrum_analysis
Vladislavs Dovgalecs

1
Vui lòng xem lại một số bài đăng trong thanh bên bên phải (->) đề cập đến cả PCA và chuỗi thời gian. Nếu có bất kỳ câu trả lời nào cho câu hỏi của bạn, vui lòng liên kết với nó trong các bình luận ở đây, nhưng nếu không có gì, bạn có thể giải thích các cách cụ thể mà vấn đề của bạn khác với bất kỳ vấn đề nào.
Glen_b -Reinstate Monica

Không ai trong số họ trả lời câu hỏi của pca về chuỗi thời gian. Các truy vấn cụ thể về chủ đề này liên quan đến khoa học hoặc không được trả lời.
Nisha Simon

5
PCA, như một công cụ chuyển đổi dữ liệu, giảm kích thước, thăm dò và trực quan hóa, không đưa ra bất kỳ giả định nào. Bạn có thể chạy nó trên bất kỳ dữ liệu nào, kể cả dữ liệu chuỗi thời gian. Trên thực tế, PCA rất thường được áp dụng cho dữ liệu chuỗi thời gian (đôi khi nó được gọi là "PCA chức năng", đôi khi không). Tôi thậm chí không biết "PCA động" và "PCA tĩnh" nghĩa là gì; đừng lo lắng và sử dụng PCA tiêu chuẩn.
amip nói phục hồi Monica

Bạn có thể muốn xem xét sử dụng Chức năng PCA được thiết kế đặc biệt cho chuỗi thời gian. Gói FDA trong R thực hiện fPCA. Bạn sẽ có thể tìm thấy fPCA đa biến.
Anne

Câu trả lời:


8

Một cách tiếp cận có thể là lấy sự khác biệt lần đầu tiên của 12 biến của bạn để đảm bảo ổn định. Sau đó tính 12×12 ma trận hiệp phương sai và thực hiện PCA trên đó. Đây sẽ là một số loại PCA trung bình trong toàn bộ khoảng thời gian và sẽ không nói gì về việc các mốc thời gian khác nhau ảnh hưởng đến nhau như thế nào. Nhưng nó có thể là một điểm khởi đầu tốt.

Nếu bạn quan tâm đến việc phân tách miền thời gian, tôi cũng sẽ kiểm tra SSA như được đề xuất trong các bình luận.

Khi chuỗi của bạn là (giả định) đứng yên, một ma trận hiệp phương sai duy nhất có ý nghĩa. Nếu dữ liệu của bạn được tích hợp theo thứ tự từ 1 trở lên, như tôi nghi ngờ chúng có thể, việc ước tính một ma trận hiệp phương sai duy nhất sẽ không mang lại kết quả nhất quán. Ví dụ, một bước đi ngẫu nhiên được tích hợp theo thứ tự 1 và hiệp phương sai ước tính của hai lần đi ngẫu nhiên không nói lên điều gì về sự chuyển động của chúng, ở đây cần phải phân tích đồng tích hợp .

Như đã đề xuất trong các nhận xét, bản thân PCA không quan tâm đến vấn đề ổn định, do đó bạn có thể cung cấp cho PCA bất kỳ ma trận bán xác định dương nào và phân tách PC sẽ ổn theo nghĩa PCA.

Nhưng nếu ma trận hiệp phương sai ước tính của bạn không đại diện cho bất cứ điều gì có ý nghĩa về dữ liệu, thì PCA, tất nhiên, cũng sẽ không.


1
+1. Bạn có ý nghĩa gì bởi "sự khác biệt lần đầu tiên"?
amip nói phục hồi Monica

Ý tôi là sự khác biệt đầu tiên, vì vậy với mỗi mười hai x tôi sẽ làm x_t - x_t-1.
Duffau

Vì vậy, bạn đề nghị làm PCA theo các dẫn xuất thời gian của từng chuỗi thời gian, trái ngược với chính chuỗi thời gian. Nó thật thú vị; Tại sao đây sẽ là đề nghị đầu tiên của bạn?
amip nói phục hồi Monica

Vì hai lý do: 1) Để ước lượng hiệp phương sai là nhất quán, các giả định mặt cắt ngang thông thường dành cho hai biến ngẫu nhiên là độc lập và phân phối giống hệt nhau (iid). Điều này đảm bảo sự hội tụ của mẫu có nghĩa là giá trị mong đợi, được gọi là Luật số lượng lớn (LLN). Trong phân tích chuỗi thời gian, giả định của hai quá trình ngẫu nhiên là iid là hạn chế. Vì vậy, nó được thay thế bằng khái niệm văn phòng phẩm (của nhiều loại khác nhau). Để LLN giữ và ước lượng hiệp phương sai cho thống nhất, hai chuỗi cần phải có phân phối cố định chung.
Duffau

Nếu mỗi quá trình ngẫu nhiên là ngẫu nhiên thì (tôi hoàn toàn tích cực rằng) chúng có cùng đứng yên, do đó ước lượng hiệp phương sai có ý nghĩa. Sự khác biệt đầu tiên là một kỹ thuật tiêu chuẩn trong toán kinh tế lượng để làm cho chuỗi thời gian "ổn định hơn". Và từ đây ước tính và PCA là thẳng về phía trước. Vì vậy, trong ngắn hạn, bởi vì nó dễ dàng :-) .... ok không có lý do thứ hai ..
Duffau

1

Có, PCA về chuỗi thời gian được thực hiện mọi lúc trong kỹ thuật tài chính (tài chính định lượng) và thần kinh học.

Xt×ptprt=log(Pt)log(Pt1)=log(Pt/Pt1)p×pXt×tMa trận hiệp phương sai trong nhiều ngày, với các tài sản theo hàng, để thu gọn các ngày tương quan với nhau thành một PC, vì ý tưởng chung là ngày có thể là dự phòng - và khi cung cấp dữ liệu vào ví dụ như mạng thần kinh, bạn không muốn các hàng dữ liệu là dự phòng hoặc các tính năng được tương quan (bạn muốn chúng là trực giao), vì mạng lưới thần kinh sẽ lãng phí thời gian vào việc tìm hiểu mối tương quan. Cách tiếp cận này không tập trung vào autocorrelation, tuy nhiên.

γ=t/nXλ+, trên đó giá trị riêng biểu thị tín hiệu và bên dưới giá trị riêng biểu thị nhiễu. Khi đã xác định được giá trị riêng của nhiễu, bộ dữ liệu mới dựa trên hồi quy (đa biến) của dữ liệu gốc trên điểm số của PC đại diện cho bộ phát sinh nhiễu,Y= =Fnβvà phần dư sau đó được sử dụng làm tập dữ liệu được khử nhiễu, tức là X^= =Y-Y^. Giá trị của cải (lợi nhuận tích lũy) từ danh mục đầu tư được xây dựng bằng cách sử dụng các trọng số có được từ bộ dữ liệu mới (phần dư) đã được chứng minh là lớn hơn nhiều so với việc không sử dụng phương pháp này. Cuối cùng, cũng có một phương pháp cơ bản để loại bỏ "hiệu ứng thị trường" hoặc mối tương quan rộng rãi giữa lợi nhuận chứng khoán bằng cách hồi quy dữ liệu tài sản trên PC đầu tiên đại diện cho giá trị bản địa lớn nhất (lớn nhất),Y= =f1βvà kéo lại phần dư để thể hiện dữ liệu mới, dữ liệu này sẽ loại bỏ mối tương quan thị trường rộng rãi. (vì PC đầu tiên luôn đại diện cho các cổ phiếu có tính đa hình cao). Cách tiếp cận này giải quyết tâm lý thị trường có bản lề "tâm lý bầy đàn".

Trong thần kinh học, PCA được chạy theo chuỗi thời gian cho các tiềm năng hành động ở các dải bước sóng khác nhau thu được từ điện não đồ. Biến đổi tiềm năng hành động thành các vectơ điểm PC trực giao (không tương thích) và đưa PC vào các phân tích khác là phương tiện chính giúp tăng sức mạnh thống kê trong mô hình di truyền thống kê các đặc điểm phức tạp cho di truyền học hành vi (vì kiểu hình cho ví dụ hai cực, mới lạ- tìm kiếm, schizotypal, schozephrenia thường chồng chéo). Các nghiên cứu sinh đôi di truyền lớn ở Úc là công cụ phân tích các đặc điểm chồng chéo này trong di truyền học hành vi, bởi vì nếu có sự khác biệt về bệnh giữa các cặp song sinh giống hệt nhau được nuôi dưỡng (lớn lên trong cùng một gia đình), suy luận nguyên nhân có thể chỉ ra phơi nhiễm trong các môi trường khác nhau khi họ đã già hơn thay vì di truyền giống hệt nhau.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.