Đối với các tính năng Boolean (nghĩa là phân loại với hai lớp), một cách thay thế tốt cho việc sử dụng PCA bao gồm sử dụng Phân tích nhiều tương ứng (MCA), đơn giản là sự mở rộng của PCA thành các biến phân loại (xem chủ đề liên quan ). Đối với một số nền tảng về MCA, các bài báo là Husson et al. (2010) , hoặc Abdi và Valentin (2007) . Một gói R tuyệt vời để thực hiện MCA là FactoMineR . Nó cung cấp cho bạn các công cụ để vẽ sơ đồ hai chiều về tải trọng của các quan sát trên các thành phần chính, rất sâu sắc.
Dưới đây là hai ví dụ bản đồ từ một trong những dự án nghiên cứu trước đây của tôi (được vẽ với ggplot2). Tôi chỉ có khoảng 60 quan sát và nó cho kết quả tốt. Bản đồ đầu tiên biểu thị các quan sát trong không gian PC1 - PC2, bản đồ thứ hai trong không gian PC3 - PC4 ... Các biến cũng được thể hiện trong bản đồ, giúp diễn giải ý nghĩa của các kích thước. Thu thập cái nhìn sâu sắc từ một số bản đồ này có thể cho bạn một bức tranh khá đẹp về những gì đang xảy ra trong dữ liệu của bạn.
Trên trang web được liên kết ở trên, bạn cũng sẽ tìm thấy thông tin về một quy trình mới, HCPC, viết tắt của Phân cụm phân cấp trên các Thành phần chính và có thể bạn quan tâm. Về cơ bản, phương pháp này hoạt động như sau:
- thực hiện MCA,
- giữ lại kích thước đầu tiên (trong đó , với số lượng tính năng ban đầu của bạn). Bước này hữu ích ở chỗ nó loại bỏ một số nhiễu và do đó cho phép phân cụm ổn định hơn,kk<pp
- thực hiện phân cụm phân cấp kết tụ (từ dưới lên) trong không gian của các PC được giữ lại. Vì bạn sử dụng tọa độ của các hình chiếu của các quan sát trong không gian PC (số thực), bạn có thể sử dụng khoảng cách Euclide, với tiêu chí của Ward cho liên kết (tăng tối thiểu trong phương sai trong cụm). Bạn có thể cắt dendogram ở độ cao bạn thích hoặc để chức năng R cắt nếu hoặc bạn dựa trên một số heuristic,
- (tùy chọn) ổn định các cụm bằng cách thực hiện phân cụm K-nghĩa. Cấu hình ban đầu được đưa ra bởi các trung tâm của cụm được tìm thấy ở bước trước.
Sau đó, bạn có rất nhiều cách để điều tra các cụm (hầu hết các tính năng đại diện, hầu hết các cá nhân đại diện, v.v.)