Phân tích thành phần chính chức năng (FPCA): tất cả là gì?

21

Phân tích thành phần chính chức năng (FPCA) là điều tôi đã vấp ngã và không bao giờ hiểu được. Cái này chủ yếu là gì?

Xem "Khảo sát phân tích thành phần chính chức năng" của Thương, 2011 và tôi đang trích dẫn:

PCA gặp khó khăn nghiêm trọng trong việc phân tích dữ liệu chức năng vì lời nguyền của chiều về tính chiều (Bellman 1961). Lời nguyền của chiều về chiều cao, bắt nguồn từ sự thưa thớt dữ liệu trong không gian chiều cao. Ngay cả khi các đặc tính hình học của PCA vẫn còn hiệu lực và ngay cả khi các kỹ thuật số mang lại kết quả ổn định, ma trận hiệp phương sai mẫu đôi khi là một ước tính kém của ma trận hiệp phương sai dân số. Để khắc phục khó khăn này, FPCA cung cấp một cách thông tin hơn để kiểm tra cấu trúc hiệp phương sai mẫu so với PCA [...]

Tôi chỉ không nhận được nó. Hạn chế của bài báo này là gì? Không phải PCA có phải là phương pháp tối ưu để xử lý các tình huống như lời nguyền của chiều không gian thì sao?

time-series pca dimensionality-reduction

— Chính phủ
nguồn

7

Chính xác, như bạn nêu trong câu hỏi và như @tdc đưa ra câu trả lời của mình, trong trường hợp kích thước cực cao ngay cả khi các tính chất hình học của PCA vẫn còn hiệu lực, ma trận hiệp phương sai không còn là ước tính tốt về hiệp phương sai dân số thực.

Có một bài viết rất thú vị "Phân tích thành phần chính của dữ liệu fMRI" ( pdf ) trong đó họ sử dụng PCA chức năng để trực quan hóa phương sai:

... Giống như trong các kỹ thuật khám phá khác, mục tiêu là đưa ra một đánh giá ban đầu sẽ mang lại cho dữ liệu cơ hội để nói cho chính họ trước khi chọn một mô hình thích hợp. [...]

Trong bài báo họ giải thích chính xác họ đã thực hiện nó như thế nào và cũng cung cấp lý do lý thuyết:

Ưu điểm quyết định của phương pháp này bao gồm khả năng chỉ định một nhóm các giả định trong việc lựa chọn tập hợp hàm cơ sở và trong hàm lỗi được giảm thiểu bởi sự phù hợp. Các giả định này sẽ yếu hơn so với đặc tả của chức năng huyết động được xác định trước và một tập hợp các sự kiện hoặc điều kiện như trong mặt nạ F, do đó bảo tồn đặc tính khám phá của quy trình; tuy nhiên, các giả định có thể vẫn đủ nghiêm ngặt để vượt qua các văn hóa khác nhau của PCA thông thường.

— andreister
nguồn

Tôi đang đấu tranh để hiểu logic đằng sau FPCA; Tôi nhìn vào tờ giấy bạn trích dẫn, nhưng vẫn còn bối rối. Cài đặt là ma trận dữ liệu có kích thước với chuỗi thời gian quan sát có chiều dài . Với PCA, người ta có thể tìm ra trình xác định long đầu tiên của ma trận hiệp phương sai; Yêu cầu là nó sẽ rất ồn ào. FpCa giải pháp là xấp xỉ mỗi chuỗi thời gian với hàm cơ sở ( ), và sau đó thực hiện PCA trong không gian chức năng cơ bản. Chính xác? Nếu vậy, nó khác với làm mịn từng chuỗi thời gian và sau đó chạy PCA tiêu chuẩn như thế nào? Tại sao một cái tên đặc biệt?

n \times t

$n\times t$

n

$n$

t ≫ n

$t\gg n$

t

$t$

k

$k$

k ≪ t

$k\ll t$

— amip nói rằng Phục hồi lại

Sau khi đọc thêm một chút về nó, tôi quyết định đăng câu trả lời của riêng tôi. Có lẽ bạn sẽ quan tâm. Tôi chắc chắn sẽ đánh giá cao bất kỳ hiểu biết bổ sung.

— amip nói phục hồi Monica

24

Tôi thấy "PCA chức năng" là một khái niệm khó hiểu không cần thiết. Nó hoàn toàn không phải là một điều riêng biệt, đó là PCA tiêu chuẩn được áp dụng cho chuỗi thời gian.

FpCa đề cập đến tình huống khi mỗi quan sát là một chuỗi thời gian (tức là một "chức năng") quan sát thấy tại thời điểm, do đó ma trận dữ liệu toàn bộ là của kích thước. Thông thường , ví dụ: một người có thể có chuỗi thời gian được lấy mẫu ở điểm thời gian mỗi lần. Điểm của phân tích là tìm ra một số "chuỗi thời gian riêng" (cũng có độ dài ), tức là các hàm riêng của ma trận hiệp phương sai, mô tả hình dạng "điển hình" của chuỗi thời gian quan sát được. $n$ $t$ $n \times t$ $t\gg n$ $20$ $1000$ $t$

Một người chắc chắn có thể áp dụng PCA tiêu chuẩn ở đây. Rõ ràng, trong trích dẫn của bạn, tác giả lo ngại rằng chuỗi thời gian bản địa kết quả sẽ quá ồn ào. Điều này thực sự có thể xảy ra! Hai cách rõ ràng để đối phó với điều đó là (a) để làm mịn chuỗi thời gian bản địa kết quả sau PCA hoặc (b) để làm mịn chuỗi thời gian ban đầu trước khi thực hiện PCA.

Một cách tiếp cận ít rõ ràng hơn, lạ mắt hơn, nhưng gần như tương đương, là xấp xỉ từng chuỗi thời gian ban đầu với các hàm cơ bản , làm giảm hiệu quả kích thước từ đến . Sau đó, người ta có thể thực hiện PCA và có được chuỗi thời gian riêng xấp xỉ bởi các hàm cơ bản tương tự. Đây là những gì người ta thường thấy trong các hướng dẫn của FPCA. Người ta thường sử dụng các hàm cơ bản trơn tru (các thành phần Gaussian hoặc Fourier), theo như tôi có thể thấy điều này về cơ bản tương đương với tùy chọn đơn giản chết não (b) ở trên. $k$ $t$ $k$

Các hướng dẫn về FPCA thường đi sâu vào các cuộc thảo luận về cách khái quát hóa PCA với các không gian chức năng của chiều vô hạn, nhưng sự liên quan thực tế của điều đó hoàn toàn nằm ngoài tôi , vì trong thực tế, dữ liệu chức năng luôn bị rời rạc.

Dưới đây là một minh họa lấy từ Ramsay và Silverman "Phân tích dữ liệu chức năng" sách giáo khoa, trong đó có vẻ là các chuyên khảo dứt khoát về "phân tích dữ liệu chức năng" bao gồm FpCa:

Ramsay và Silverman, FPCA

Mọi người có thể thấy rằng thực hiện PCA trên "dữ liệu rời rạc" (điểm) mang lại thực tế giống như thực hiện FPCA trên các chức năng tương ứng trong cơ sở Fourier (dòng). Tất nhiên trước tiên người ta có thể thực hiện PCA rời rạc và sau đó khớp một chức năng trong cùng một cơ sở Fourier; nó sẽ mang lại ít nhiều kết quả tương tự.

Tái bút Trong ví dụ này là một số nhỏ với . Có lẽ những gì các tác giả xem là "PCA chức năng" trong trường hợp này sẽ dẫn đến một "chức năng", tức là "đường cong trơn tru", trái ngược với 12 điểm riêng biệt. Nhưng điều này có thể được tiếp cận một cách tầm thường bằng cách nội suy và sau đó làm mịn chuỗi thời gian bản địa kết quả. Một lần nữa, có vẻ như "PCA chức năng" không phải là một thứ riêng biệt, nó chỉ là một ứng dụng của PCA. $t=12$ $n>t$

— amip nói phục hồi Monica
nguồn

2

Trong trường hợp các quỹ đạo được lấy mẫu không đều (ví dụ: dữ liệu theo chiều dọc), FPCA có liên quan nhiều hơn là " nội suy và sau đó làm mịn chuỗi thời gian bản địa ". Ví dụ, ngay cả khi bằng cách nào đó, một số eigencompon tính toán điểm chiếu của dữ liệu thưa thớt không được xác định rõ; xem ví dụ: Yao et al. JASA 2005. Được cấp cho các quy trình lấy mẫu thường xuyên dày đặc FPCA là PCA hiệu quả với một số hình phạt về độ mịn trên đầu.

— usεr11852 nói Phục hồi Monic

Cảm ơn, @ usεr11852 (+1). Tôi cần tìm thời gian để xem xét lại. Tôi sẽ cố gắng tra cứu bài báo mà bạn tham khảo và quay lại câu trả lời này.

— amip nói rằng Phục hồi lại

@amoeba, tất cả âm thanh này gần như liên quan đến chuyển đổi Fourier rời rạc, nơi bạn phục hồi các sóng thành phần của một chuỗi sóng / thời gian phức tạp?

— Russell Richie

9

Tôi đã làm việc vài năm với Jim Ramsay trên FDA, vì vậy tôi có thể có thể thêm một vài điều rõ ràng vào câu trả lời của @ amoeba. Tôi nghĩ ở mức độ thực tế, @amoeba về cơ bản là đúng. Ít nhất, đó là kết luận cuối cùng tôi đã đạt được sau khi học FDA. Tuy nhiên, khuôn khổ FDA đưa ra một cái nhìn sâu sắc về lý thuyết thú vị về lý do tại sao làm mịn các trình sinh riêng không chỉ là một loại bùn. Nó chỉ ra rằng việc tối ưu hóa trong không gian chức năng, tùy thuộc vào một sản phẩm bên trong có chứa một hình phạt độ mịn, đưa ra một giải pháp hữu hạn về các đường cơ sở. FDA sử dụng không gian chức năng chiều vô hạn, nhưng phân tích không yêu cầu số lượng kích thước vô hạn. Nó giống như thủ thuật kernel trong các tiến trình Gaussian hoặc SVM. Thật ra nó rất giống với thủ thuật kernel.

Tác phẩm gốc của Ramsay xử lý các tình huống trong đó câu chuyện chính trong dữ liệu là rõ ràng: các chức năng là tuyến tính nhiều hay ít, hoặc nhiều hay ít theo định kỳ. Các hàm riêng chiếm ưu thế của PCA tiêu chuẩn sẽ chỉ phản ánh mức độ tổng thể của các hàm và xu hướng tuyến tính (hoặc các hàm sin), về cơ bản cho chúng ta biết những gì chúng ta đã biết. Các tính năng thú vị nằm trong phần dư, hiện là một số người bản địa từ đầu danh sách. Và vì mỗi hàm riêng tiếp theo phải trực giao với các hàm trước đó, các cấu trúc này phụ thuộc ngày càng nhiều vào các tạo phẩm của phân tích và ít hơn vào các tính năng có liên quan của dữ liệu. Trong phân tích nhân tố, xoay nhân tố xiên nhằm giải quyết vấn đề này. Ý tưởng của Ramsay là không xoay các thành phần, mà là để thay đổi định nghĩa về tính trực giao theo cách phản ánh tốt hơn các nhu cầu của phân tích. Điều này có nghĩa là nếu bạn quan tâm đến các thành phần định kỳ, bạn sẽ làm trơn tru trên cơ sở $D^3-D$ $D^2$

Người ta có thể phản đối rằng việc loại bỏ xu hướng với OLS sẽ đơn giản hơn và kiểm tra phần dư của hoạt động đó. Tôi chưa bao giờ bị thuyết phục rằng giá trị gia tăng của FDA đáng giá với sự phức tạp to lớn của phương pháp. Nhưng từ quan điểm lý thuyết, đáng để xem xét các vấn đề liên quan. Tất cả mọi thứ chúng tôi làm để dữ liệu làm rối tung mọi thứ. Phần dư của OLS có tương quan, ngay cả khi dữ liệu gốc là độc lập. Làm mịn chuỗi thời gian giới thiệu tự động tương quan không có trong chuỗi thô. Ý tưởng của FDA là đảm bảo rằng phần dư chúng tôi nhận được từ việc giảm giá ban đầu phù hợp với phân tích lợi ích.

Bạn phải nhớ rằng FDA bắt nguồn từ đầu những năm 80 khi các chức năng spline đang được nghiên cứu tích cực - hãy nghĩ đến Grace Wahba và nhóm của cô ấy. Nhiều cách tiếp cận dữ liệu đa biến đã xuất hiện từ đó - như SEM, phân tích đường cong tăng trưởng, quy trình Gaussian, phát triển hơn nữa trong lý thuyết quá trình ngẫu nhiên và nhiều hơn nữa. Tôi không chắc chắn rằng FDA vẫn là cách tiếp cận tốt nhất cho các câu hỏi mà nó giải quyết. Mặt khác, khi tôi thấy các ứng dụng của Purports là gì, tôi thường tự hỏi liệu các tác giả có thực sự hiểu những gì FDA đang cố gắng làm không.

— Dấu phẩy
nguồn

+1. Rất tiếc, tôi chỉ nhận thấy câu trả lời của bạn và chỉ tình cờ (ai đó đã để lại nhận xét dưới câu trả lời của tôi ở đây và tôi cuộn xuống). Cảm ơn rất nhiều vì đã đóng góp! Tôi nghĩ rằng tôi cần phải có thời gian để đọc thêm một chút về điều này và suy nghĩ về những gì bạn nói về sự giống nhau của thủ thuật kernel. Nó có vẻ hợp lý.

— amip nói rằng Phục hồi Monica

5

Tôi không chắc chắn về FPCA, nhưng một điều cần nhớ, là ở kích thước cực cao, có nhiều "không gian" hơn và các điểm trong không gian bắt đầu được phân bố đồng đều (nghĩa là mọi thứ đều cách xa mọi thứ khác). Tại thời điểm này, ma trận hiệp phương sai sẽ bắt đầu trông cơ bản đồng nhất và sẽ rất nhạy cảm với nhiễu. Do đó, nó trở thành một ước tính xấu về hiệp phương sai "thực sự". Có lẽ FPCA có được điều này bằng cách nào đó, nhưng tôi không chắc chắn.

— tdc
nguồn