Phụ thuộc vào mục tiêu phân tích của bạn. Một số thực tiễn phổ biến, một số trong đó được đề cập trong liên kết của người đăng ký:
- Tiêu chuẩn hóa thường được thực hiện khi các biến mà PCA được thực hiện không được đo trên cùng một thang đo. Lưu ý rằng tiêu chuẩn hóa hàm ý gán tầm quan trọng như nhau cho tất cả các biến.
- Nếu chúng không được đo trên cùng một thang đo và bạn chọn làm việc trên các biến không được tiêu chuẩn hóa, thì thường thì mỗi PC bị chi phối bởi một biến duy nhất và bạn chỉ cần sắp xếp thứ tự các biến theo phương sai của chúng. (Một trong các tải của mỗi thành phần (sớm) sẽ gần bằng +1 hoặc -1.)
- Hai phương pháp thường dẫn đến kết quả khác nhau, như bạn đã trải nghiệm.
Ví dụ trực quan:
Giả sử bạn có hai biến: chiều cao của cây và đường kính của cùng một cây. Chúng tôi sẽ chuyển đổi âm lượng thành một yếu tố: một cây sẽ có âm lượng cao nếu âm lượng của nó lớn hơn 20 feet khối và nếu không thì âm lượng thấp. Chúng tôi sẽ sử dụng bộ dữ liệu cây được tải sẵn trong R.
>data(trees)
>tree.girth<-trees[,1]
>tree.height<-trees[,2]
>tree.vol<-as.factor(ifelse(trees[,3]>20,"high","low"))
Bây giờ giả sử rằng chiều cao thực sự đã được đo bằng dặm thay vì chân.
>tree.height<-tree.height/5280
>tree<-cbind(tree.height,tree.girth)
>
>#do the PCA
>tree.pca<-princomp(tree)
>summary(tree.pca)
Importance of components:
Comp.1 Comp.2
Standard deviation 3.0871086 1.014551e-03
Proportion of Variance 0.9999999 1.080050e-07
Cumulative Proportion 0.9999999 1.000000e+00
Thành phần đầu tiên giải thích gần như 100% sự biến đổi trong dữ liệu. Các tải trọng:
> loadings(tree.pca)
Loadings:
Comp.1 Comp.2
tree.height -1
tree.girth 1
Đánh giá đồ họa:
>biplot(tree.pca,xlabs=tree.vol,col=c("grey","red"))
Chúng ta thấy rằng những cây có khối lượng cao thường có chu vi cây cao, nhưng ba chiều cao không cung cấp bất kỳ thông tin nào về thể tích cây. Điều này có thể sai và hậu quả của hai biện pháp đơn vị khác nhau.
Chúng ta có thể sử dụng cùng các đơn vị hoặc chúng ta có thể tiêu chuẩn hóa các biến. Tôi hy vọng cả hai sẽ dẫn đến một bức tranh cân bằng hơn về sự biến đổi. Tất nhiên trong trường hợp này, người ta có thể lập luận rằng các biến nên có cùng một đơn vị nhưng không được tiêu chuẩn hóa, có thể là một đối số hợp lệ, không phải là chúng ta đang đo hai thứ khác nhau. (Khi chúng ta sẽ đo trọng lượng của cây và đường kính của cây, thang đo mà cả hai nên được đo không còn rõ ràng nữa. Trong trường hợp này, chúng ta có một lập luận rõ ràng để làm việc với các biến được tiêu chuẩn hóa.)
>tree.height<-tree.height*5280
>tree<-cbind(tree.height,tree.girth)
>
>#do the PCA
>tree.pca<-princomp(tree)
> summary(tree.pca)
Importance of components:
Comp.1 Comp.2
Standard deviation 6.5088696 2.5407042
Proportion of Variance 0.8677775 0.1322225
Cumulative Proportion 0.8677775 1.0000000
> loadings(tree.pca)
Loadings:
Comp.1 Comp.2
tree.height -0.956 0.293
tree.girth -0.293 -0.956
>biplot(tree.pca,xlabs=tree.vol,col=c("grey","red"))
Bây giờ chúng ta thấy rằng những cây cao và có đường kính lớn, có thể tích lớn (góc dưới bên trái), so với chiều cao thấp và chiều cao thấp đối với cây có khối lượng thấp (góc trên bên phải). Điều này bằng trực giác có ý nghĩa.
Tuy nhiên, nếu theo dõi sát sao, chúng ta sẽ thấy rằng độ tương phản giữa âm lượng cao / thấp mạnh nhất theo hướng chu vi chứ không phải theo chiều cao. Hãy xem điều gì xảy ra khi chúng ta chuẩn hóa:
>tree<-scale(tree,center=F,scale=T)
>tree.pca<-princomp(tree)
> summary(tree.pca)
Importance of components:
Comp.1 Comp.2
Standard deviation 0.2275561 0.06779544
Proportion of Variance 0.9184749 0.08152510
Cumulative Proportion 0.9184749 1.00000000
> loadings(tree.pca)
Loadings:
Comp.1 Comp.2
tree.height 0.203 -0.979
tree.girth 0.979 0.203
>biplot(tree.pca,xlabs=tree.vol,col=c("grey","red"))
Thật vậy, giờ đây giải thích phần lớn sự khác biệt ở cây có khối lượng cao và thấp! (Độ dài của mũi tên trong biplot là biểu thị của phương sai trong biến ban đầu.) Vì vậy, ngay cả khi mọi thứ được đo trên cùng một thang đo, tiêu chuẩn hóa có thể hữu ích. Không tiêu chuẩn hóa có thể được khuyến nghị khi chúng ta ví dụ so sánh chiều dài của các loài cây khác nhau vì đây là phép đo hoàn toàn giống nhau.