Bối cảnh : Tôi muốn phân loại các khu dân cư của thành phố thành các nhóm dựa trên đặc điểm kinh tế xã hội của họ, bao gồm mật độ đơn vị nhà ở, mật độ dân số, diện tích không gian xanh, giá nhà ở, số trường học / trung tâm y tế / trung tâm chăm sóc ban ngày, v.v. Tôi muốn hiểu có bao nhiêu nhóm khác nhau mà các khu dân cư có thể được chia thành, và đặc điểm độc đáo của chúng là gì. Thông tin này có thể tạo điều kiện cho quy hoạch thành phố.
Dựa trên một số ví dụ (xem, bài đăng trên blog này: PCA và K-có nghĩa là Clustering of Delta Airplane ), tôi đã tìm ra cách để phân tích là:
Đầu tiên làm phân tích PCA.
Xác định số lượng nhóm duy nhất (cụm) dựa trên kết quả PCA (ví dụ: sử dụng phương pháp "khuỷu tay" hoặc cách khác là số lượng thành phần giải thích 80 đến 90% tổng phương sai).
Sau khi xác định số lượng cụm, áp dụng phân cụm k-nghĩa để thực hiện phân loại.
Câu hỏi của tôi: dường như số lượng các thành phần PCA có liên quan đến phân tích cụm. Vì vậy, điều đó đúng, nếu, chúng tôi đã tìm thấy 5 thành phần PCA giải thích hơn 90% biến thể của tất cả các tính năng, sau đó chúng tôi sẽ áp dụng phân cụm k-nghĩa và nhận 5 cụm. Vậy 5 nhóm có tương ứng chính xác với 5 thành phần trong phân tích PCA không?
Nói cách khác, tôi đoán câu hỏi của tôi là: Mối liên hệ giữa phân tích PCA và phân cụm k-nghĩa là gì?
Cập nhật: Nhờ các đầu vào của Emre, xeon và Kirill. Vì vậy, các câu trả lời hiện tại:
Làm PCA trước khi phân tích phân cụm cũng hữu ích cho việc giảm kích thước như một trình trích xuất tính năng và trực quan hóa / hiển thị các cụm.
Làm PCA sau khi phân cụm có thể xác nhận thuật toán phân cụm (tham khảo: Phân tích thành phần chính của hạt nhân ).
PCA đôi khi được áp dụng để giảm tính chiều của bộ dữ liệu trước khi phân cụm. Tuy nhiên, Yeung & Ruzzo (2000) đã chỉ ra rằng phân cụm với PC thay vì các biến ban đầu không nhất thiết phải cải thiện chất lượng cụm. Cụ thể, một vài PC đầu tiên (chứa hầu hết các biến thể trong dữ liệu) không nhất thiết phải nắm bắt hầu hết cấu trúc cụm.
- Yeung, Ka Yee và Walter L. Ruzzo. Một nghiên cứu thực nghiệm về phân tích thành phần chính cho dữ liệu biểu hiện gen phân cụm. Báo cáo kỹ thuật, Khoa Khoa học và Kỹ thuật Máy tính, Đại học Washington, 2000. ( pdf )
Dường như PCA là cần thiết trước khi phân tích phân cụm hai bước . Dựa trên Ibes (2015), trong đó phân tích cụm được chạy bằng các yếu tố được xác định trong PCA.
- Ibes, Dorothy C. Một phân loại đa chiều và phân tích công bằng của một hệ thống công viên đô thị: Một phương pháp mới và ứng dụng nghiên cứu trường hợp. Quy hoạch cảnh quan và đô thị , tập 137, tháng 5 năm 2015, trang 122 dài137.