PCA về tương quan hay hiệp phương sai?


153

Sự khác biệt chính giữa thực hiện phân tích thành phần chính (PCA) trên ma trận tương quan và ma trận hiệp phương sai là gì? Họ có cho kết quả tương tự không?


2
Trả lời muộn, nhưng bạn có thể tìm thấy RẤT NHIỀU tờ rơi hữu ích về phân tích dữ liệu đa biến "à la française" trên khoa Tin sinh học của Lyon. Chúng đến từ các tác giả của gói R ade4 . Đó là bằng tiếng Pháp, mặc dù.
chl

3
Để thảo luận thêm, vui lòng truy cập stats.stackexchange.com/questions/62677/ cường .
whuber

Câu trả lời:


130

Bạn có xu hướng sử dụng ma trận hiệp phương sai khi các thang đo biến đổi tương tự nhau và ma trận tương quan khi các biến nằm trên các thang đo khác nhau.

Sử dụng ma trận tương quan tương đương với việc chuẩn hóa từng biến (có nghĩa là 0 và độ lệch chuẩn 1). Nói chung, PCA có và không có tiêu chuẩn hóa sẽ cho kết quả khác nhau. Đặc biệt là khi quy mô khác nhau.

Ví dụ, hãy xem heptathlontập dữ liệu R này . Một số biến có giá trị trung bình khoảng 1,8 (nhảy cao), trong khi các biến khác (chạy 800m) là khoảng 120.

library(HSAUR)
heptathlon[,-8]      # look at heptathlon data (excluding 'score' variable)

Kết quả này:

                   hurdles highjump  shot run200m longjump javelin run800m
Joyner-Kersee (USA)   12.69     1.86 15.80   22.56     7.27   45.66  128.51
John (GDR)            12.85     1.80 16.23   23.65     6.71   42.56  126.12
Behmer (GDR)          13.20     1.83 14.20   23.10     6.68   44.54  124.20
Sablovskaite (URS)    13.61     1.80 15.23   23.92     6.25   42.78  132.24
Choubenkova (URS)     13.51     1.74 14.76   23.93     6.32   47.46  127.90
...

Bây giờ chúng ta hãy làm PCA về hiệp phương sai và tương quan:

# scale=T bases the PCA on the correlation matrix
hep.PC.cor = prcomp(heptathlon[,-8], scale=TRUE)
hep.PC.cov = prcomp(heptathlon[,-8], scale=FALSE)

biplot(hep.PC.cov)
biplot(hep.PC.cor)  

PCA về tương quan hoặc hiệp phương sai

run800mjavelinrun800m82%javelin97%64%71%

Cũng lưu ý rằng các cá nhân bên ngoài (trong bộ dữ liệu này ) là các ngoại lệ bất kể sử dụng ma trận hiệp phương sai hay tương quan.


Tình huống là gì, nếu tôi chuyển đổi các biến thành z-points trước?
Jirka-x1

9
@ Jirka-x1 ma trận hiệp phương sai của các biến được tiêu chuẩn hóa (tức là điểm z ) bằng với ma trận tương quan.
Alexis

@Alexis Do đó, có thể suy ra rằng ma trận hiệp phương sai của các biến được tiêu chuẩn hóa bằng ma trận tương quan của các biến được tiêu chuẩn hóa?
jb

1
ΣRR=RXYrXYX=aX+bY=aY+b XYrXY).
Alexis

Một lưu ý quan trọng: khi sử dụng hiệp phương sai trong PCA, các PC của bạn sẽ không tương quan với nhau, điều này không đúng với PCA dựa trên tương quan. Điều này đặc biệt quan trọng khi có ý định thực hiện PCA trước khi hồi quy trong một tập hợp đa biến của các biến giải thích. Tuy nhiên lý thuyết đằng sau điều này là không rõ ràng. Bất cứ ai có thể làm sáng tỏ sự khác biệt này?
ouranos

54

Bernard Flury, trong cuốn sách xuất sắc giới thiệu phân tích đa biến, đã mô tả đây là một tài sản chống các thành phần chính. Nó thực sự tồi tệ hơn việc lựa chọn giữa tương quan hoặc hiệp phương sai. Nếu bạn thay đổi các đơn vị (ví dụ như gallon kiểu Mỹ, inch, v.v. và lít kiểu EU, centimet), bạn sẽ nhận được các dự báo khác nhau về dữ liệu.

Lập luận chống lại việc tự động sử dụng ma trận tương quan là nó là một cách khá tàn bạo để chuẩn hóa dữ liệu của bạn. Vấn đề với việc tự động sử dụng ma trận hiệp phương sai, rất rõ ràng với dữ liệu heptathalon đó, là các biến có phương sai cao nhất sẽ chi phối thành phần chính đầu tiên (thuộc tính tối đa hóa phương sai).

Vì vậy, phương pháp "tốt nhất" để sử dụng dựa trên sự lựa chọn chủ quan, suy nghĩ cẩn thận và một số kinh nghiệm.


46

DỮ LIỆU KHÔNG GIỚI HẠN (RAW): Nếu bạn có các biến có thang đo thay đổi rộng rãi cho dữ liệu thô, chưa được xử lý, nghĩa là lượng calo tiêu thụ mỗi ngày, biểu hiện gen, ELISA / Luminex theo đơn vị ug / dl, ng / dl, dựa trên một số đơn hàng cường độ biểu hiện protein, sau đó sử dụng tương quan làm đầu vào cho PCA. Tuy nhiên, nếu tất cả dữ liệu của bạn dựa trên biểu hiện gen từ cùng một nền tảng với phạm vi và quy mô tương tự hoặc bạn đang làm việc với lợi nhuận tài sản của bản ghi nhật ký, thì việc sử dụng tương quan sẽ tạo ra một lượng thông tin khổng lồ.

RCCR10010C1R

ZC

RC

(P<0.05)n=100

  1. Ri=1,2,,100.
  2. pcti=Ri/(n+1)
  3. N(0,1)ZZi=Φ1(pcti)

pcti1.96=Φ1(0.025)pcti=0.9751.96=Φ1(0.975)

Sử dụng điểm VDW rất phổ biến trong di truyền học, trong đó nhiều biến được chuyển thành điểm VDW, sau đó nhập vào phân tích. Ưu điểm của việc sử dụng điểm VDW là độ lệch và hiệu ứng ngoại lệ được xóa khỏi dữ liệu và có thể được sử dụng nếu mục tiêu là thực hiện phân tích theo các điều kiện trái ngược với quy tắc - và mọi biến cần phải được phân phối chuẩn hoàn toàn không có độ lệch hoặc ngoại lệ.


7
Đây là câu trả lời hợp lý nhất ở đây, vì nó thực sự đưa ra một quan điểm đúng đắn rằng hiệp phương sai chiến thắng khi thích hợp. Quá nhiều câu trả lời ở đây và những nơi khác đề cập đến "nó phụ thuộc" thông thường mà không thực sự đưa ra một cơ sở cứng cho lý do tại sao người ta nên thích hiệp phương sai nếu có thể . Ở đây lep hiện: hiệp phương sai không loại bỏ bất kỳ thông tin nào tương quan. Ví dụ dữ liệu chứng khoán là một tốt nhất: cổ phiếu beta cao sẽ tất nhiên có tải trọng cao hơn nhưng có lẽ họ nên , giống như bất kỳ khía cạnh của bất kỳ phân tích rằng có nhiều biến động thường là thú vị hơn (trong vòng lý do).
Thomas Browne

3
Tất nhiên, vấn đề hiện tại phải được phân tích xem có hay không phương sai cao hơn là một khía cạnh thú vị của phân tích. Nếu không, thì tất nhiên tương quan là tốt hơn, và điều đó chắc chắn giữ nếu các đơn vị khác nhau.
Thomas Browne

Câu trả lời tuyệt vời +1. Tôi đoán một ví dụ nữa có thể áp dụng PCA để phân tích cấu trúc thuật ngữ về lợi suất trái phiếu trong tài chính. Phương sai của năng suất trên các kỳ hạn khác nhau khác nhau, nhưng vì chúng đều là năng suất, nên các thang đo khác nhau thường không được chấp nhận rộng. Thật vậy, nhiều / ít biến động của năng suất trưởng thành nhất định tự nó cung cấp thông tin phong phú.
Nicholas

11

Một câu trả lời phổ biến là đề xuất rằng hiệp phương sai được sử dụng khi các biến có cùng tỷ lệ và tương quan khi các thang đo của chúng khác nhau. Tuy nhiên, điều này chỉ đúng khi quy mô của các biến không phải là một yếu tố. Nếu không, tại sao mọi người sẽ làm hiệp phương sai PCA? Sẽ an toàn hơn khi luôn thực hiện PCA tương quan.

Hãy tưởng tượng rằng các biến của bạn có các đơn vị đo lường khác nhau, chẳng hạn như mét và kilôgam. Không quan trọng bạn sử dụng mét hay centimet trong trường hợp này, vì vậy bạn có thể lập luận rằng nên sử dụng ma trận tương quan.

Hãy xem xét bây giờ dân số của người dân ở các tiểu bang khác nhau. Các đơn vị đo lường là như nhau - số lượng (số) người. Bây giờ, quy mô có thể khác: DC có 600K và CA - 38M người. Chúng ta có nên sử dụng ma trận tương quan ở đây? Nó phụ thuộc. Trong một số ứng dụng, chúng tôi muốn điều chỉnh kích thước của trạng thái. Sử dụng ma trận hiệp phương sai là một cách để xây dựng các yếu tố chiếm kích thước của trạng thái.

Do đó, câu trả lời của tôi là sử dụng ma trận hiệp phương sai khi phương sai của biến ban đầu là quan trọng và sử dụng tương quan khi không.


2

Cá nhân tôi thấy rất có giá trị khi thảo luận về các lựa chọn này theo mô hình phân tích thành phần chính có khả năng tối đa (MLPCA) [1,2]. Trong MLPCA, người ta áp dụng tỷ lệ (hoặc thậm chí xoay) sao cho các lỗi đo trong các biến đo được độc lập và phân phối theo phân phối chuẩn thông thường. Tỷ lệ này còn được gọi là tỷ lệ khả năng tối đa (MALS) [3]. Trong một số trường hợp, mô hình PCA và tham số xác định tỷ lệ / xoay MALS có thể được ước tính cùng nhau [4].

Để giải thích PCA dựa trên tương quan và hiệp phương sai, người ta có thể lập luận rằng:

  1. PCA dựa trên hiệp phương sai tương đương với MLPCA bất cứ khi nào ma trận phương sai hiệp phương sai của các lỗi đo được giả định là đường chéo với các phần tử bằng nhau trên đường chéo của nó. Tham số phương sai sai số đo có thể được ước tính bằng cách áp dụng mô hình phân tích thành phần chính xác suất (PPCA) [5]. Tôi thấy đây là một giả định hợp lý trong một số trường hợp tôi đã nghiên cứu, cụ thể là khi tất cả các phép đo đều có cùng loại biến (ví dụ: tất cả các dòng chảy, tất cả nhiệt độ, tất cả nồng độ hoặc tất cả các phép đo độ hấp thụ). Thật vậy, có thể an toàn khi giả định rằng các lỗi đo lường cho các biến đó được phân phối độc lập và giống hệt nhau.
  2. PCA dựa trên tương quan tương đương với MLPCA bất cứ khi nào ma trận phương sai hiệp phương sai của các lỗi đo được giả định là đường chéo với mỗi phần tử trên đường chéo tỷ lệ với phương sai tổng thể của biến đo tương ứng. Mặc dù đây là một phương pháp phổ biến, cá nhân tôi thấy giả định tỷ lệ không hợp lý trong hầu hết các trường hợp tôi nghiên cứu. Kết quả là, điều này có nghĩa là tôi không thể hiểu PCA dựa trên tương quan là mô hình MLPCA. Trong trường hợp (1) các giả định ngụ ý của PCA dựa trên hiệp phương sai không áp dụng và (2) một cách giải thích MLPCA là có giá trị, tôi khuyên bạn nên sử dụng một trong các phương pháp MLPCA thay thế [1-4].
  3. PCA dựa trên tương quan và hiệp phương sai sẽ tạo ra kết quả chính xác giống nhau - bắt đầu từ một số nhân vô hướng - khi các phương sai riêng lẻ cho mỗi biến hoàn toàn bằng nhau. Khi các phương sai riêng lẻ này giống nhau nhưng không giống nhau, cả hai phương pháp sẽ tạo ra kết quả tương tự nhau.

Như đã nhấn mạnh ở trên, sự lựa chọn cuối cùng phụ thuộc vào các giả định bạn đang thực hiện. Ngoài ra, tiện ích của bất kỳ mô hình cụ thể nào cũng phụ thuộc vào bối cảnh và mục đích phân tích của bạn. Để trích dẫn George EP Box: "Tất cả các mô hình đều sai, nhưng một số là hữu ích".

[1] Wentzell, PD, Andrew, DT, Hamilton, DC, Faber, K., & Kowalski, BR (1997). Khả năng tối đa phân tích thành phần chính. Tạp chí hóa học, 11 (4), 339-366.

[2] Wentzell, PD, & Lohnes, MT (1999). Khả năng tối đa phân tích thành phần chính với các lỗi đo lường tương quan: xem xét lý thuyết và thực tế. Hệ thống phòng thí nghiệm hóa học và thông minh, 45 (1-2), 65-85.

[3] Hoefsloot, HC, Verouden, MP, Westerhuis, JA, & Smilde, AK (2006). Khả năng mở rộng tối đa (MALS). Tạp chí hóa học, 20 (3‐4), 120-127.

[4] Narasimhan, S., & Shah, SL (2008). Nhận dạng mô hình và ước lượng ma trận hiệp phương sai từ dữ liệu nhiễu bằng PCA. Thực hành kỹ thuật điều khiển, 16 (1), 146-155.

[5] Tiền boa, TÔI, & Giám mục, CM (1999). Phân tích thành phần chính xác suất. Tạp chí của Hiệp hội Thống kê Hoàng gia: Dòng B (Phương pháp thống kê), 61 (3), 611-622.


-1

Thẳng và đơn giản: nếu các thang đo tương tự, hãy sử dụng cov-PCA, nếu không, hãy sử dụng Corr-PCA; nếu không, tốt hơn bạn nên có một sự bảo vệ cho không. Nếu nghi ngờ, hãy sử dụng phép thử F cho sự bằng nhau của phương sai (ANOVA). Nếu thất bại trong bài kiểm tra F, hãy sử dụng chính xác; mặt khác, sử dụng cov.


2
-1. Tôi không thấy lý do tại sao chạy thử nghiệm F có thể có liên quan ở đây. PCA là một phương pháp thăm dò, không phải là một phương pháp xác nhận (như các bài kiểm tra thống kê).
amip

-5

Các đối số dựa trên thang đo (đối với các biến được biểu thị trong cùng đơn vị vật lý) có vẻ khá yếu. Hãy tưởng tượng một tập hợp các biến (không thứ nguyên) có độ lệch chuẩn khác nhau giữa 0,001 và 0,1. So với giá trị tiêu chuẩn là 1, cả hai dường như là 'mức nhỏ' và mức độ dao động tương đương. Tuy nhiên, khi bạn thể hiện chúng bằng decibel, điều này sẽ cho phạm vi -60 dB tương ứng với -10 và 0 dB. Sau đó, điều này có thể sau đó sẽ được phân loại là 'phạm vi lớn' - đặc biệt nếu bạn sẽ bao gồm độ lệch chuẩn gần bằng 0, tức là trừ đi vô cực dB.

Đề nghị của tôi sẽ là thực hiện CẢ HAI PCA dựa trên tương quan và hiệp phương sai. Nếu cả hai đưa ra cùng một (hoặc rất giống nhau, bất kể điều này có nghĩa là gì), thì bạn có thể yên tâm rằng bạn đã có một câu trả lời có ý nghĩa. Nếu họ cung cấp cho các PC khác nhau rộng rãi thì không sử dụng PCA, bởi vì hai câu trả lời khác nhau cho một vấn đề không phải là cách hợp lý để giải quyết câu hỏi.


9
(-1) Nhận được "hai câu trả lời khác nhau cho cùng một vấn đề" thường chỉ có nghĩa là bạn đang suy nghĩ lung tung mà không suy nghĩ về kỹ thuật nào phù hợp với mục tiêu phân tích của mình. Điều đó không có nghĩa là một hoặc (như bạn nêu) cả hai kỹ thuật đều không hợp lý, nhưng chỉ có ít nhất một kỹ thuật có thể không phù hợp với vấn đề hoặc dữ liệu. Hơn nữa, trong nhiều trường hợp, bạn có thể dự đoán rằng PCA dựa trên hiệp phương sai và PCA dựa trên tương quan sẽ đưa ra các câu trả lời khác nhau. Rốt cuộc, họ đang đo các khía cạnh khác nhau của dữ liệu. Làm cả hai theo mặc định sẽ không có ý nghĩa.
whuber

Trên thực tế, rất hợp lý để có được 2 câu trả lời khác nhau khi sử dụng PCA với mối tương quan và hiệp phương sai. Trong trường hợp chứng khoán, câu hỏi đặt ra là bạn có nên đưa betas (hoặc độ lệch chuẩn) vào tài khoản hay không
Juancentro
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.