Kỹ thuật không trực giao tương tự PCA


9

Giả sử tôi có bộ dữ liệu điểm 2D và tôi muốn phát hiện hướng của tất cả các phương sai cực đại cục bộ trong dữ liệu, ví dụ:

nhập mô tả hình ảnh ở đây

PCA không giúp ích gì trong tình huống này vì đây là sự phân rã trực giao và do đó không thể phát hiện cả hai dòng tôi chỉ ra màu xanh lam, thay vào đó, đầu ra của nó có thể trông giống như dòng được hiển thị bằng các đường màu xanh lá cây.

Vui lòng giới thiệu bất kỳ kỹ thuật nào có thể phù hợp cho mục đích này. Cảm ơn.


Bạn có thể làm cho tập dữ liệu mẫu của bạn có sẵn? Tôi muốn thử một cái gì đó cho bạn. Trân trọng, Eric
Eric Melse

Câu trả lời:


10

Phân tích thành phần độc lập sẽ có thể cung cấp cho bạn giải pháp tốt. Nó có thể phân hủy các thành phần không trực giao (như trong trường hợp của bạn) bằng cách giả sử rằng các phép đo của bạn là kết quả của một hỗn hợp các biến độc lập thống kê.

Có rất nhiều hướng dẫn tốt trên Internet và bỏ qua một vài triển khai có sẵn miễn phí để thử (ví dụ như trong scikit hoặc MDP ).

Khi nào ICA không hoạt động?

Như các thuật toán khác, ICA là tối ưu khi các giả định được áp dụng. Cụ thể,

  1. nguồn độc lập thống kê
  2. các thành phần độc lập là không phải Gaussian
  3. ma trận trộn là không thể đảo ngược

ICA trả về một ước tính của ma trận trộn và các thành phần độc lập.

x1x2N(0,I)

p(x1,x2)=p(x1)p(x2)=12πexp(x12+x222)=12πexp||x||22

||.||R||Rx||=||x||


Vâng, nó nên ( scikit-learn.org/urdy/auto_examples/decysis/iêu ), Cảm ơn rất nhiều! : D
Ahmed

1
Điều này có thể biến thành một câu trả lời thực sự sâu sắc nếu bạn nói nhiều hơn; đặc biệt, quyết định so sánh đề xuất của @ Gottfried (PCA với xoay xiên) với đề xuất của bạn (ICA), - sự khác biệt và thiếu sót của hai điều này là gì.
ttnphns

Tôi thấy rằng câu hỏi này đã được trả lời một phần. Kiểm tra chỉnh sửa thêm một ví dụ đơn giản mà ICA không áp dụng.
jpmuc

3

Có các thủ tục giống như PCA cho trường hợp được gọi là "xiên". Trong phần mềm thống kê như SPSS (và có thể cả trong bản sao phần mềm miễn phí) PSPP, người ta tìm thấy "xoay xiên" tương đương, và các trường hợp của chúng có tên là "oblimin", "promax" và một cái gì đó nữa. Nếu tôi hiểu chính xác mọi thứ, phần mềm sẽ cố gắng "hình chữ hóa" các hệ số tải bằng cách tính lại tọa độ của chúng trong một không gian trực giao, euclide (ví dụ như trong hình của bạn) thành tọa độ của một không gian có trục không trực giao với một số kỹ thuật được biết đến từ hồi quy bội. Hơn nữa, tôi nghĩ rằng điều này chỉ hoạt động lặp đi lặp lại và tiêu thụ một hoặc nhiều mức độ tự do trong thử nghiệm thống kê của mô hình.

PCA so sánh và xoay xiên
Các tài liệu tham khảo thủ công của SPSS (tại IBM-site) cho xiên-quay chứa công thức ngay cả đối với việc tính toán.

[Cập nhật] (Upps, xin lỗi, chỉ cần kiểm tra rằng PSPP không cung cấp "phép quay" của kiểu xiên)


1
Hmm, sau lần đọc thứ ba tôi thấy, câu hỏi của bạn hơi khác so với lý do xoay xiên: trong đám mây dữ liệu của bạn thậm chí không có nghĩa là nguồn gốc / dữ liệu thậm chí không được căn giữa, vì vậy bạn có thể có một cái gì đó khác trong tâm trí hơn tôi đã trình bày ở đây trong câu trả lời của tôi. Nếu đây là trường hợp, tôi có thể xóa câu trả lời sau ...
Gottfried Helms

1
Do các "phép quay" xiên tiếp theo PCA, nên chúng không thể "nhìn thấy" loại tình huống được minh họa trong câu hỏi và do đó dường như không có nhiều khả năng xác định hai thành phần hơn PCA.
whuber

2

Tôi không có nhiều kinh nghiệm với nó, nhưng PCA tổng quát của Vidal, Ma và Sastry đã được tạo ra cho một vấn đề rất giống nhau.


2

Các câu trả lời khác đã đưa ra một số gợi ý hữu ích về các kỹ thuật bạn có thể xem xét, nhưng dường như không ai chỉ ra rằng giả định của bạn là sai: các dòng hiển thị màu xanh lam trên hình ảnh sơ đồ của bạn KHÔNG phải là cực đại cục bộ của phương sai.

wwΣwΣwλ(ww1)λ

Σwλw=0.

w


Xin chào, tôi không có nhiều nền tảng về toán học, bạn có thể giới thiệu cho tôi một nguồn tài nguyên tốt để tìm hiểu về những điều bạn đã đề cập ở trên không? Cảm ơn.
Ahmed

@Ahmed: Tôi không chắc, nó phụ thuộc vào những gì bạn đã biết. Tôi đoán bạn sẽ cần sách giáo khoa phong nha về đại số tuyến tính và phân tích. Đây là công cụ khá cơ bản, nên được bao gồm trong bất kỳ sách giáo khoa phong nha.
amip
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.