PCA đang làm gì với dữ liệu tự động tương quan?


9

Chỉ vì một số phóng viên đặt ra một câu hỏi thú vị liên quan đến các phương pháp tính toán tự tương quan, tôi bắt đầu chơi với nó, gần như không có bất kỳ kiến ​​thức nào về chuỗi thời gian và tự tương quan.

Người phóng viên đã sắp xếp dữ liệu của anh ta ( điểm dữ liệu của một chuỗi thời gian) thay đổi theo độ trễ một lần mỗi bên để anh ta có một ma trận dữ liệu (theo tôi hiểu anh ta) trong đó hàng đầu tiên là dữ liệu gốc, hàng thứ hai dữ liệu được dịch chuyển theo đơn vị thời gian , hàng tiếp theo bởi một đơn vị khác và cứ thế. Tôi cũng nhận ra điều này bằng cách dán phần cuối vào đuôi, do đó tạo ra các bộ dữ liệu "tròn".32 × 32 13232×321

Sau đó, chỉ để tìm kiếm những gì có thể phát sinh từ nó, tôi đã tính toán ma trận tương quan và từ đây các thành phần chính. Thật ngạc nhiên khi tôi có hình ảnh của sự phân tách tần số và (một lần nữa với dữ liệu khác) một tần số, nói rằng với một khoảng thời gian trong dữ liệu là trong thành phần chính đầu tiên, và với bốn giai đoạn là trong PC thứ hai, v.v. (Tôi có PC "có liên quan" với giá trị riêng6 > 1326>1). Đầu tiên tôi nghĩ điều này phụ thuộc vào dữ liệu đầu vào, nhưng bây giờ tôi cho rằng nó được hệ thống theo cách này bằng cách xây dựng đặc biệt của tập dữ liệu với các dịch chuyển tròn (còn gọi là ma trận "Toeplitz"). Sự xoay vòng của giải pháp PC đối với varimax hoặc các tiêu chí xoay vòng khác cho kết quả hơi khác nhau và có thể thú vị, nhưng nói chung dường như cung cấp sự phân tách tần số như vậy.

Đây là liên kết đến các hình ảnh mà tôi đã tạo từ bộ dữ liệu điểm; các đường cong được tạo ra đơn giản từ các tải trọng của factormatrix: một đường cong các tải trọng trên một yếu tố. Đường cong của PC1 đầu tiên sẽ hiển thị biên độ cao nhất (đại khái là vì nó có tổng tải trọng cao nhất)32

Câu hỏi:

  • Q1: Đây có phải là một tính năng của thiết kế? (của PCA với loại dữ liệu này)
  • Câu 2: Cách tiếp cận này thực sự có thể sử dụng được cho cách tiếp cận nghiêm túc để phân tích tần số / bước sóng?

[cập nhật] ở đây là bộ dữ liệu (hy vọng nó sẽ được sao chép cho bạn)

-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4
-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5
-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3
0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1
2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0
4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2
6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4
5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6
3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5
1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3
1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1
0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1
-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0
-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2
-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3
0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1
3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0
5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3
7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5
6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7
7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6
5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7
4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5
3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4
2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3
3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2
5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3
4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5
3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4
2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3
3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2
4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3

Cảm ơn @amoeba và rất nhiều chỉnh sửa. Tôi chỉ thấy hai lỗi mà tôi muốn chỉnh sửa sau đó, câu hỏi bây giờ đẹp hơn nhiều!
Gottfried Helms

Câu trả lời:


4

Hãy để tôi chuyển đổi nhận xét trước đó của tôi để trả lời.

Bạn có tưởng tượng các hàng trong ma trận dữ liệu của bạn là các biến hoặc các mẫu không? Tôi sẽ giả sử chúng là các mẫu: tức là bạn có chuỗi thời gian khác nhau (các mẫu).n=32

Sau đó, nếu tất cả hàng giống hệt nhau, nhưng chỉ được dịch chuyển tròn vị trí mỗi vị trí, thì ma trận dữ liệu của bạn bao gồm các sản phẩm chấm giữa tất cả các cặp hàng sẽ có cấu trúc Toeplitz: giá trị cao gần với đường chéo và giảm dần đến giá trị 0 từ nó. Ma trận Toeplitz có chế độ liên tiếp Fourier như vector riêng của họ (và vector riêng của ma trận Gram là những thành phần chủ yếu, lên đến rộng), do đó tới Q1 của bạn: nó không gì ngạc nhiên khi bạn nhận được sóng sin tăng tần số như máy tính.1 n × nn=321n×n

Không có ý tưởng nếu nó có thể hữu ích (Q2). Theo kinh nghiệm của tôi, nó có xu hướng xuất hiện như một vật phẩm gây phiền nhiễu. Tức là mọi người có một số dữ liệu, lấy một cái gì đó giống với các chế độ Fourier ra khỏi PCA và bắt đầu tự hỏi chúng có nghĩa là gì, trong khi chúng chỉ đơn giản là do một số thay đổi thời gian trong chuỗi thời gian ban đầu.


Vâng, rất tốt đẹp, cảm ơn! Có, tôi đã nghĩ dữ liệu dọc theo các hàng. Quý 2 cũng đến vì tôi chưa bao giờ hiểu được chính xác cách phân tích Fourier hoạt động - và tình cờ, đây có thể là một bước để có được một số trực giác về (nhưng hy vọng mơ hồ này thực sự dường như không có kết quả ở đây ...)
Gottfried Helms

Nhân tiện, bạn có phiền khi chia sẻ chuỗi thời gian 32 giá trị của mình không? Tôi muốn chèn một hình hiển thị ma trận Gram và tôi có thể làm điều đó trực tiếp với dữ liệu của bạn.
amip

Bạn có thấy liên kết trong câu hỏi của tôi? Nó chuyển hướng đến một trang web mà tôi đã tạo bằng exce.l Nó có 4 hoặc 5 trang con, có thể được chọn bởi "firefox" trong cài đặt của tôi bằng một clik trên thanh tab ở cuối màn hình. Trang con đầu tiên hiển thị danh sách dữ liệu. Tuy nhiên theo chiều dọc: người ta nên lấy nó làm hàng đầu tiên trong một bảng mới và thêm 31 hàng trong khi đạp xe sang phải. Nếu điều đó bất tiện, tôi cũng có thể thêm dữ liệu vào câu hỏi của mình ...
Gottfried Helms

Ồ wow, tôi đã không nhận ra đó là toàn bộ bảng tính trực tuyến và không chỉ là một ảnh chụp màn hình! Cảm ơn.
amip
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.