Sự khác biệt chính giữa thực hiện phân tích thành phần chính (PCA) trên ma trận tương quan và ma trận hiệp phương sai là gì? Họ có cho kết quả tương tự không?
Sự khác biệt chính giữa thực hiện phân tích thành phần chính (PCA) trên ma trận tương quan và ma trận hiệp phương sai là gì? Họ có cho kết quả tương tự không?
Câu trả lời:
Bạn có xu hướng sử dụng ma trận hiệp phương sai khi các thang đo biến đổi tương tự nhau và ma trận tương quan khi các biến nằm trên các thang đo khác nhau.
Sử dụng ma trận tương quan tương đương với việc chuẩn hóa từng biến (có nghĩa là 0 và độ lệch chuẩn 1). Nói chung, PCA có và không có tiêu chuẩn hóa sẽ cho kết quả khác nhau. Đặc biệt là khi quy mô khác nhau.
Ví dụ, hãy xem heptathlon
tập dữ liệu R này . Một số biến có giá trị trung bình khoảng 1,8 (nhảy cao), trong khi các biến khác (chạy 800m) là khoảng 120.
library(HSAUR)
heptathlon[,-8] # look at heptathlon data (excluding 'score' variable)
Kết quả này:
hurdles highjump shot run200m longjump javelin run800m
Joyner-Kersee (USA) 12.69 1.86 15.80 22.56 7.27 45.66 128.51
John (GDR) 12.85 1.80 16.23 23.65 6.71 42.56 126.12
Behmer (GDR) 13.20 1.83 14.20 23.10 6.68 44.54 124.20
Sablovskaite (URS) 13.61 1.80 15.23 23.92 6.25 42.78 132.24
Choubenkova (URS) 13.51 1.74 14.76 23.93 6.32 47.46 127.90
...
Bây giờ chúng ta hãy làm PCA về hiệp phương sai và tương quan:
# scale=T bases the PCA on the correlation matrix
hep.PC.cor = prcomp(heptathlon[,-8], scale=TRUE)
hep.PC.cov = prcomp(heptathlon[,-8], scale=FALSE)
biplot(hep.PC.cov)
biplot(hep.PC.cor)
run800m
javelin
run800m
javelin
Cũng lưu ý rằng các cá nhân bên ngoài (trong bộ dữ liệu này ) là các ngoại lệ bất kể sử dụng ma trận hiệp phương sai hay tương quan.
Bernard Flury, trong cuốn sách xuất sắc giới thiệu phân tích đa biến, đã mô tả đây là một tài sản chống các thành phần chính. Nó thực sự tồi tệ hơn việc lựa chọn giữa tương quan hoặc hiệp phương sai. Nếu bạn thay đổi các đơn vị (ví dụ như gallon kiểu Mỹ, inch, v.v. và lít kiểu EU, centimet), bạn sẽ nhận được các dự báo khác nhau về dữ liệu.
Lập luận chống lại việc tự động sử dụng ma trận tương quan là nó là một cách khá tàn bạo để chuẩn hóa dữ liệu của bạn. Vấn đề với việc tự động sử dụng ma trận hiệp phương sai, rất rõ ràng với dữ liệu heptathalon đó, là các biến có phương sai cao nhất sẽ chi phối thành phần chính đầu tiên (thuộc tính tối đa hóa phương sai).
Vì vậy, phương pháp "tốt nhất" để sử dụng dựa trên sự lựa chọn chủ quan, suy nghĩ cẩn thận và một số kinh nghiệm.
DỮ LIỆU KHÔNG GIỚI HẠN (RAW): Nếu bạn có các biến có thang đo thay đổi rộng rãi cho dữ liệu thô, chưa được xử lý, nghĩa là lượng calo tiêu thụ mỗi ngày, biểu hiện gen, ELISA / Luminex theo đơn vị ug / dl, ng / dl, dựa trên một số đơn hàng cường độ biểu hiện protein, sau đó sử dụng tương quan làm đầu vào cho PCA. Tuy nhiên, nếu tất cả dữ liệu của bạn dựa trên biểu hiện gen từ cùng một nền tảng với phạm vi và quy mô tương tự hoặc bạn đang làm việc với lợi nhuận tài sản của bản ghi nhật ký, thì việc sử dụng tương quan sẽ tạo ra một lượng thông tin khổng lồ.
Sử dụng điểm VDW rất phổ biến trong di truyền học, trong đó nhiều biến được chuyển thành điểm VDW, sau đó nhập vào phân tích. Ưu điểm của việc sử dụng điểm VDW là độ lệch và hiệu ứng ngoại lệ được xóa khỏi dữ liệu và có thể được sử dụng nếu mục tiêu là thực hiện phân tích theo các điều kiện trái ngược với quy tắc - và mọi biến cần phải được phân phối chuẩn hoàn toàn không có độ lệch hoặc ngoại lệ.
Một câu trả lời phổ biến là đề xuất rằng hiệp phương sai được sử dụng khi các biến có cùng tỷ lệ và tương quan khi các thang đo của chúng khác nhau. Tuy nhiên, điều này chỉ đúng khi quy mô của các biến không phải là một yếu tố. Nếu không, tại sao mọi người sẽ làm hiệp phương sai PCA? Sẽ an toàn hơn khi luôn thực hiện PCA tương quan.
Hãy tưởng tượng rằng các biến của bạn có các đơn vị đo lường khác nhau, chẳng hạn như mét và kilôgam. Không quan trọng bạn sử dụng mét hay centimet trong trường hợp này, vì vậy bạn có thể lập luận rằng nên sử dụng ma trận tương quan.
Hãy xem xét bây giờ dân số của người dân ở các tiểu bang khác nhau. Các đơn vị đo lường là như nhau - số lượng (số) người. Bây giờ, quy mô có thể khác: DC có 600K và CA - 38M người. Chúng ta có nên sử dụng ma trận tương quan ở đây? Nó phụ thuộc. Trong một số ứng dụng, chúng tôi muốn điều chỉnh kích thước của trạng thái. Sử dụng ma trận hiệp phương sai là một cách để xây dựng các yếu tố chiếm kích thước của trạng thái.
Do đó, câu trả lời của tôi là sử dụng ma trận hiệp phương sai khi phương sai của biến ban đầu là quan trọng và sử dụng tương quan khi không.
Cá nhân tôi thấy rất có giá trị khi thảo luận về các lựa chọn này theo mô hình phân tích thành phần chính có khả năng tối đa (MLPCA) [1,2]. Trong MLPCA, người ta áp dụng tỷ lệ (hoặc thậm chí xoay) sao cho các lỗi đo trong các biến đo được độc lập và phân phối theo phân phối chuẩn thông thường. Tỷ lệ này còn được gọi là tỷ lệ khả năng tối đa (MALS) [3]. Trong một số trường hợp, mô hình PCA và tham số xác định tỷ lệ / xoay MALS có thể được ước tính cùng nhau [4].
Để giải thích PCA dựa trên tương quan và hiệp phương sai, người ta có thể lập luận rằng:
Như đã nhấn mạnh ở trên, sự lựa chọn cuối cùng phụ thuộc vào các giả định bạn đang thực hiện. Ngoài ra, tiện ích của bất kỳ mô hình cụ thể nào cũng phụ thuộc vào bối cảnh và mục đích phân tích của bạn. Để trích dẫn George EP Box: "Tất cả các mô hình đều sai, nhưng một số là hữu ích".
[1] Wentzell, PD, Andrew, DT, Hamilton, DC, Faber, K., & Kowalski, BR (1997). Khả năng tối đa phân tích thành phần chính. Tạp chí hóa học, 11 (4), 339-366.
[2] Wentzell, PD, & Lohnes, MT (1999). Khả năng tối đa phân tích thành phần chính với các lỗi đo lường tương quan: xem xét lý thuyết và thực tế. Hệ thống phòng thí nghiệm hóa học và thông minh, 45 (1-2), 65-85.
[3] Hoefsloot, HC, Verouden, MP, Westerhuis, JA, & Smilde, AK (2006). Khả năng mở rộng tối đa (MALS). Tạp chí hóa học, 20 (3‐4), 120-127.
[4] Narasimhan, S., & Shah, SL (2008). Nhận dạng mô hình và ước lượng ma trận hiệp phương sai từ dữ liệu nhiễu bằng PCA. Thực hành kỹ thuật điều khiển, 16 (1), 146-155.
[5] Tiền boa, TÔI, & Giám mục, CM (1999). Phân tích thành phần chính xác suất. Tạp chí của Hiệp hội Thống kê Hoàng gia: Dòng B (Phương pháp thống kê), 61 (3), 611-622.
Thẳng và đơn giản: nếu các thang đo tương tự, hãy sử dụng cov-PCA, nếu không, hãy sử dụng Corr-PCA; nếu không, tốt hơn bạn nên có một sự bảo vệ cho không. Nếu nghi ngờ, hãy sử dụng phép thử F cho sự bằng nhau của phương sai (ANOVA). Nếu thất bại trong bài kiểm tra F, hãy sử dụng chính xác; mặt khác, sử dụng cov.
Các đối số dựa trên thang đo (đối với các biến được biểu thị trong cùng đơn vị vật lý) có vẻ khá yếu. Hãy tưởng tượng một tập hợp các biến (không thứ nguyên) có độ lệch chuẩn khác nhau giữa 0,001 và 0,1. So với giá trị tiêu chuẩn là 1, cả hai dường như là 'mức nhỏ' và mức độ dao động tương đương. Tuy nhiên, khi bạn thể hiện chúng bằng decibel, điều này sẽ cho phạm vi -60 dB tương ứng với -10 và 0 dB. Sau đó, điều này có thể sau đó sẽ được phân loại là 'phạm vi lớn' - đặc biệt nếu bạn sẽ bao gồm độ lệch chuẩn gần bằng 0, tức là trừ đi vô cực dB.
Đề nghị của tôi sẽ là thực hiện CẢ HAI PCA dựa trên tương quan và hiệp phương sai. Nếu cả hai đưa ra cùng một (hoặc rất giống nhau, bất kể điều này có nghĩa là gì), thì bạn có thể yên tâm rằng bạn đã có một câu trả lời có ý nghĩa. Nếu họ cung cấp cho các PC khác nhau rộng rãi thì không sử dụng PCA, bởi vì hai câu trả lời khác nhau cho một vấn đề không phải là cách hợp lý để giải quyết câu hỏi.