PCA không ổn định dưới đa cộng đồng?


25

Tôi biết rằng trong một tình huống hồi quy, nếu bạn có một tập hợp các biến có tương quan cao thì điều này thường là "xấu" vì sự không ổn định trong các hệ số ước tính (phương sai đi về vô cực khi định thức đi về 0).

Câu hỏi của tôi là liệu "tính xấu" này có tồn tại trong tình huống PCA hay không. Các hệ số / tải trọng / trọng số / hàm riêng cho bất kỳ PC cụ thể nào trở nên không ổn định / tùy ý / không duy nhất khi ma trận hiệp phương sai trở thành số ít? Tôi đặc biệt quan tâm đến trường hợp chỉ giữ lại thành phần chính đầu tiên và tất cả các thành phần khác bị loại bỏ là "tiếng ồn" hoặc "thứ gì khác" hoặc "không quan trọng".

Tôi không nghĩ rằng nó như vậy, bởi vì bạn sẽ chỉ còn lại một vài thành phần chính có 0 hoặc gần với phương sai bằng không.

Dễ thấy đây không phải là trường hợp cực kỳ đơn giản với 2 biến - giả sử chúng có mối tương quan hoàn hảo. Sau đó, PC đầu tiên sẽ là mối quan hệ tuyến tính chính xác và PC thứ hai sẽ vuông góc với PC đầu tiên, với tất cả các giá trị PC bằng 0 cho tất cả các quan sát (tức là phương sai bằng 0). Tự hỏi nếu nó chung chung hơn.


8
Lý luận của bạn là tốt. Trên thực tế, người ta sẽ mong đợi sự không ổn định xảy ra khi hai hoặc nhiều giá trị riêng gần như trùng khớp, mặc dù sau đó mặc dù các giá trị riêng được xác định, nhưng các hàm riêng thì không, và do đó cũng không phải là tải. Vì lý do số, cũng có sự không ổn định trong giá trị riêng (và hàm riêng) có kích thước rất nhỏ so với giá trị riêng tối đa.
whuber

@whuber bình luận trả lời câu hỏi của bạn, nhưng tôi muốn lưu ý rằng trong trường hợp có 2 biến tương quan hoàn hảo, PCA không nên có bất kỳ vấn đề nào. Ma trận hiệp phương sai sẽ là cấp 1, do đó sẽ chỉ có 1 giá trị riêng khác không, do đó chỉ có 1 PC. Các biến ban đầu sẽ là bội số của PC này. Vấn đề duy nhất có thể là sự ổn định số.
mpiktas

Trên thực tế, tôi nghĩ bạn sẽ tệ hơn nếu bạn có các biến tương quan vừa phải so với khi bạn có các biến tương quan thực sự cao. Cũng rất khôn ngoan, nếu bạn đang sử dụng một thuật toán như NIPALS để loại bỏ PC theo thứ tự
JMS

Một điều - "tương quan cao" và "colinear" không giống nhau. Nếu có nhiều hơn 2 biến liên quan, colinearity không ngụ ý tương quan.
Peter Flom - Tái lập Monica

Câu trả lời:


11

Câu trả lời có thể được đưa ra theo các thuật ngữ thậm chí đơn giản hơn: hồi quy bội có một bước so với pca nếu nhìn theo đại số tuyến tính và từ bước thứ hai , sự bất ổn xuất hiện:

Bước đầu tiên của pca và mult. hồi quy có thể được coi là bao thanh toán của ma trận tương quan thành hai yếu tố hợp lý , đó là hình tam giác - và khác biệt với tương quan thấp hoặc cao. (Pca sau đó có thể được xem như là một phép quay của yếu tố cholesky (hình tam giác) đó đến vị trí pc (cái này được gọi là xoay Jacobi theo như tôi nhớ) RLLt

Đa. thủ tục hồi quy là áp dụng nghịch đảo của yếu tố cholesky trừ đi hàng và cột của biến phụ thuộc, thuận tiện trong hàng cuối cùng của ma trận tương quan. Sự không ổn định xuất hiện ở đây: nếu các biến độc lập có tương quan cao, thì đường chéo của yếu tố cholesky có thể suy biến thành các giá trị số rất nhỏ - và đảo ngược lại đưa ra vấn đề chia gần như bằng không.L
L


Đây là khoảng những gì tôi đang tìm kiếm. Trong thực tế, việc đọc câu trả lời của bạn làm tôi nghĩ đến một lời giải thích khác: các phép quay ổn định về mặt số, bất kể yếu tố quyết định của ma trận hiệp phương sai / tương quan. Và vì PCA có thể được đóng khung là tìm vòng quay tốt nhất của trục tọa độ, nên nó cũng sẽ ổn định về mặt số.
xác suất

Có, ví dụ như trong "nền tảng phân tích nhân tố" của Stan Mulaik, tính ổn định của xoay pc (phương pháp Jacobi) đã được đề cập rõ ràng, nếu tôi nhớ lại nguồn chính xác. Trong quá trình thực hiện phân tích nhân tố của riêng tôi, tôi làm mọi thứ sau khi quay vòng bằng PC: PCA, Varimax, thậm chí "bao thanh toán trục chính" (PAF trong SPSS) có thể được xây dựng lại dựa trên các phép quay. Nếu hồi quy đa dựa trên yếu tố cholesky L và phần L chứa các biến độc lập nằm ở vị trí PC, thì tính đa hướng thậm chí còn có thể được kiểm soát tốt hơn.
Gottfried Helms

3

PCA thường là một phương tiện để kết thúc; dẫn đến một trong hai đầu vào cho một hồi quy bội hoặc để sử dụng trong phân tích cụm. Tôi nghĩ trong trường hợp của bạn, bạn đang nói về việc sử dụng kết quả của PCA để thực hiện hồi quy.

Trong trường hợp đó, mục tiêu của bạn khi thực hiện PCA là loại bỏ mulitcollinearity và nhận đầu vào trực giao cho hồi quy bội, không ngạc nhiên khi đây được gọi là Hồi quy thành phần chính. Ở đây, nếu tất cả các đầu vào ban đầu của bạn là trực giao thì việc thực hiện PCA sẽ cung cấp cho bạn một bộ đầu vào trực giao khác. Vì thế; nếu bạn đang làm PCA, người ta sẽ cho rằng đầu vào của bạn có tính đa hình.

Với những điều trên, bạn sẽ muốn làm PCA để có được một vài biến đầu vào từ một vấn đề có một số đầu vào. Để xác định có bao nhiêu trong số các biến trực giao mới mà bạn nên giữ lại, một biểu đồ scree thường được sử dụng (Johnson & Wicotta, 2001, p. 445). Nếu bạn có số lượng quan sát lớn, thì bạn cũng có thể sử dụng quy tắc ngón tay cái với làm giá trị riêng ước tính lớn nhất của chỉ sử dụng tối đa và bao gồm các giá trị đó trong đó lớn hơn hoặc bằng một (Johnson & Wicotta, 2001, p. 451).λi^ithλi^p

Tài liệu tham khảo

Johnson & Wicéc (2001). Phân tích thống kê đa biến ứng dụng (Phiên bản thứ 6). Hội trường Prentice.


6
Tôi không chắc OP là sau PCR. PCA cũng là một cách tốt để tóm tắt các bộ dữ liệu đa biến (không nhất thiết phải thực hiện giảm dữ liệu cho lần sử dụng tiếp theo trong khung mô hình), đó là xấp xỉ ma trận VC theo thứ tự thấp hơn trong khi vẫn giữ được hầu hết thông tin. Câu hỏi dường như là: Tôi có đúng không khi diễn giải một vài giá trị riêng và PC đầu tiên (dưới dạng kết hợp tuyến tính của các biến ban đầu) ngay cả khi có một số hiệu ứng cộng tuyến? Câu trả lời của bạn dường như không giải quyết trực tiếp câu hỏi của OP.
chl

2
câu trả lời tốt về PCA nói chung, nhưng còn khi PCA là sản phẩm cuối cùng thì sao? Đó là, mục tiêu là đầu ra một PC. @Chl nói đúng về tiền với cách giải thích câu hỏi của anh ấy
xác suất vào

@chl Câu trả lời của bạn cho câu hỏi là gì: "Tôi có đúng không khi diễn giải một vài giá trị bản địa và PC đầu tiên ngay cả khi có một số hiệu ứng cộng tuyến?" Tôi hỏi bởi vì tôi đang cố gắng tìm ra khi nào nên giữ các biến tương quan cao khi thực hiện giảm kích thước. Đôi khi khi chúng ta biết từ lý thuyết rằng hai biến được điều khiển bởi cùng một biến tiềm ẩn thì bạn nên loại bỏ một trong các biến để không tính hiệu ứng của biến tiềm ẩn hai lần. Tôi đang cố gắng suy nghĩ khi nào ổn để giữ các biến tương quan.
Amatya
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.