PCA sẽ giúp như thế nào với phân tích phân cụm k-mean?


32

Bối cảnh : Tôi muốn phân loại các khu dân cư của thành phố thành các nhóm dựa trên đặc điểm kinh tế xã hội của họ, bao gồm mật độ đơn vị nhà ở, mật độ dân số, diện tích không gian xanh, giá nhà ở, số trường học / trung tâm y tế / trung tâm chăm sóc ban ngày, v.v. Tôi muốn hiểu có bao nhiêu nhóm khác nhau mà các khu dân cư có thể được chia thành, và đặc điểm độc đáo của chúng là gì. Thông tin này có thể tạo điều kiện cho quy hoạch thành phố.

Dựa trên một số ví dụ (xem, bài đăng trên blog này: PCA và K-có nghĩa là Clustering of Delta Airplane ), tôi đã tìm ra cách để phân tích là:

  1. Đầu tiên làm phân tích PCA.

  2. Xác định số lượng nhóm duy nhất (cụm) dựa trên kết quả PCA (ví dụ: sử dụng phương pháp "khuỷu tay" hoặc cách khác là số lượng thành phần giải thích 80 đến 90% tổng phương sai).

  3. Sau khi xác định số lượng cụm, áp dụng phân cụm k-nghĩa để thực hiện phân loại.

Câu hỏi của tôi: dường như số lượng các thành phần PCA có liên quan đến phân tích cụm. Vì vậy, điều đó đúng, nếu, chúng tôi đã tìm thấy 5 thành phần PCA giải thích hơn 90% biến thể của tất cả các tính năng, sau đó chúng tôi sẽ áp dụng phân cụm k-nghĩa và nhận 5 cụm. Vậy 5 nhóm có tương ứng chính xác với 5 thành phần trong phân tích PCA không?

Nói cách khác, tôi đoán câu hỏi của tôi là: Mối liên hệ giữa phân tích PCA và phân cụm k-nghĩa là gì?

Cập nhật: Nhờ các đầu vào của Emre, xeon và Kirill. Vì vậy, các câu trả lời hiện tại:

  1. Làm PCA trước khi phân tích phân cụm cũng hữu ích cho việc giảm kích thước như một trình trích xuất tính năng và trực quan hóa / hiển thị các cụm.

  2. Làm PCA sau khi phân cụm có thể xác nhận thuật toán phân cụm (tham khảo: Phân tích thành phần chính của hạt nhân ).

  3. PCA đôi khi được áp dụng để giảm tính chiều của bộ dữ liệu trước khi phân cụm. Tuy nhiên, Yeung & Ruzzo (2000) đã chỉ ra rằng phân cụm với PC thay vì các biến ban đầu không nhất thiết phải cải thiện chất lượng cụm. Cụ thể, một vài PC đầu tiên (chứa hầu hết các biến thể trong dữ liệu) không nhất thiết phải nắm bắt hầu hết cấu trúc cụm.

    • Yeung, Ka Yee và Walter L. Ruzzo. Một nghiên cứu thực nghiệm về phân tích thành phần chính cho dữ liệu biểu hiện gen phân cụm. Báo cáo kỹ thuật, Khoa Khoa học và Kỹ thuật Máy tính, Đại học Washington, 2000. ( pdf )
  4. Dường như PCA là cần thiết trước khi phân tích phân cụm hai bước . Dựa trên Ibes (2015), trong đó phân tích cụm được chạy bằng các yếu tố được xác định trong PCA.


1
Bạn có thể sử dụng PCA để giảm kích thước làm công cụ trích xuất tính năng và để trực quan hóa các cụm.
Emre

3
Bắt đầu đơn giản: chạy trình phân loại trực tiếp trên dữ liệu bạn có và lưu ý hiệu suất. Nếu bạn không hài lòng với hiệu suất, hãy thử PCA (chọn số lượng thành phần ở "đầu gối" của âm mưu eigenvalue đã sắp xếp) và phương tiện k chạy. Nếu bạn thấy các cụm đẹp, rất có thể bộ phân loại PCA + sẽ làm tốt công việc.
Vladislavs Dovgalecs

1
Bạn cũng có thể thực hiện PCA sau khi phân cụm, để xác thực thuật toán phân cụm của bạn; mã màu mỗi điểm bởi nhãn cụm của nó. Tôi cũng khuyên bạn nên xem xét PCA kernel .
Emre

Có các phương pháp đồng thời thực hiện giảm kích thước và phân cụm. Các phương pháp này tìm kiếm một đại diện chiều thấp được chọn tối ưu để tạo thuận lợi cho việc xác định các cụm. Ví dụ, xem gói clustrd trong R và các tham chiếu liên quan.
Nat

Câu trả lời:


16

PCA không phải là một phương pháp phân cụm. Nhưng đôi khi nó giúp tiết lộ các cụm.

Giả sử bạn có phân phối chuẩn 10 chiều với trung bình (vectơ số 0) và một số ma trận hiệp phương sai với 3 hướng có phương sai lớn hơn các hướng khác. Áp dụng phân tích thành phần chính với 3 thành phần sẽ cung cấp cho bạn các hướng này theo thứ tự giảm dần và phương pháp 'khuỷu tay' sẽ cho bạn biết rằng số lượng thành phần được chọn này là đúng. Tuy nhiên, nó vẫn sẽ là một đám mây điểm (1 cụm).010

Giả sử bạn có 10 bản phân phối Bình thường 10 chiều với các phương tiện , , ... (có nghĩa là nằm gần như trên dòng) và ma trận hiệp phương sai tương tự. Áp dụng PCA chỉ với 1 thành phần (sau khi tiêu chuẩn hóa) sẽ cho bạn hướng mà bạn sẽ quan sát tất cả 10 cụm. Phân tích phương sai được giải thích (phương pháp 'khuỷu tay'), bạn sẽ thấy rằng 1 thành phần là đủ để mô tả dữ liệu này.1102101010

Trong liên kết bạn hiển thị PCA chỉ được sử dụng để xây dựng một số giả thuyết liên quan đến dữ liệu. Số lượng các cụm được xác định theo phương pháp 'khuỷu tay' theo giá trị của các nhóm trong tổng bình phương (không phải bằng phương sai giải thích). Về cơ bản, bạn lặp lại thuật toán K-nghĩa cho số lượng cụm khác nhau và tính tổng bình phương này. Nếu số cụm bằng số lượng điểm dữ liệu, thì tổng bình phương bằng .0


Cảm ơn bạn cho đầu vào của bạn. Bạn có thể giải thích phân phối chuẩn 10 chiều với trung bình 0 là gì không? Bạn có nghĩa là mười biến tính năng đầu vào và mỗi biến theo một phân phối bình thường?
enaJ

Xin lỗi, tôi đang nói về một biến ngẫu nhiên tuân theo phân phối chuẩn nhiều biến với giá trị trung bình sẽ là vectơ 10 chiều và ma trận hiệp phương sai là ma trận đối xứng 10 x10.
Kirill
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.