Sự khác biệt giữa PCA và phân cụm phổ cho một tập hợp nhỏ các tính năng Boolean


10

Tôi có một bộ dữ liệu gồm 50 mẫu. Mỗi mẫu bao gồm 11 tính năng Boolean (có thể tương quan). Tôi muốn một số cách trực quan hóa các mẫu này trên một đồ thị 2D và kiểm tra xem có các cụm / nhóm trong số 50 mẫu không.

Tôi đã thử hai cách tiếp cận sau:

(a) Chạy PCA trên ma trận 50x11 và chọn hai thành phần chính đầu tiên. Chiếu dữ liệu lên biểu đồ 2D và chạy các phương tiện K đơn giản để xác định các cụm.

(b) Xây dựng ma trận tương tự 50x50 (cosine). Chạy phân cụm phổ để giảm kích thước theo sau là K-nghĩa một lần nữa.

Sự khác biệt về khái niệm giữa việc thực hiện PCA trực tiếp so với sử dụng các giá trị riêng của ma trận tương tự là gì? Cái này tốt hơn những cái khác phải không?

Ngoài ra, có cách nào tốt hơn để hình dung dữ liệu đó trong 2D không? Vì kích thước mẫu của tôi luôn bị giới hạn ở mức 50 và bộ tính năng của tôi luôn nằm trong phạm vi 10-15, nên tôi sẵn sàng thử nhiều cách tiếp cận nhanh chóng và chọn phương pháp tốt nhất.

Câu hỏi liên quan: Phân nhóm các mẫu bằng cách phân cụm hoặc PCA

Câu trả lời:


9

Sự khác biệt về khái niệm giữa việc thực hiện PCA trực tiếp so với sử dụng các giá trị riêng của ma trận tương tự là gì?

PCA được thực hiện trên ma trận hiệp phương sai hoặc ma trận tương quan, nhưng phân cụm phổ có thể lấy bất kỳ ma trận tương tự nào (ví dụ được xây dựng với độ tương tự cosine) và tìm các cụm ở đó.

Thứ hai, các thuật toán phân cụm phổ dựa trên phân vùng biểu đồ (thường là về việc tìm ra các vết cắt tốt nhất của biểu đồ), trong khi PCA tìm thấy các hướng có hầu hết phương sai. Mặc dù trong cả hai trường hợp, chúng tôi kết thúc việc tìm kiếm các hàm riêng, các cách tiếp cận khái niệm là khác nhau.

Và cuối cùng, tôi thấy rằng PCA và phân cụm phổ phục vụ các mục đích khác nhau: một là kỹ thuật giảm kích thước và thứ hai là một cách tiếp cận để phân cụm (nhưng nó được thực hiện thông qua giảm kích thước)


5

Đối với các tính năng Boolean (nghĩa là phân loại với hai lớp), một cách thay thế tốt cho việc sử dụng PCA bao gồm sử dụng Phân tích nhiều tương ứng (MCA), đơn giản là sự mở rộng của PCA thành các biến phân loại (xem chủ đề liên quan ). Đối với một số nền tảng về MCA, các bài báo là Husson et al. (2010) , hoặc Abdi và Valentin (2007) . Một gói R tuyệt vời để thực hiện MCA là FactoMineR . Nó cung cấp cho bạn các công cụ để vẽ sơ đồ hai chiều về tải trọng của các quan sát trên các thành phần chính, rất sâu sắc.

Dưới đây là hai ví dụ bản đồ từ một trong những dự án nghiên cứu trước đây của tôi (được vẽ với ggplot2). Tôi chỉ có khoảng 60 quan sát và nó cho kết quả tốt. Bản đồ đầu tiên biểu thị các quan sát trong không gian PC1 - PC2, bản đồ thứ hai trong không gian PC3 - PC4 ... Các biến cũng được thể hiện trong bản đồ, giúp diễn giải ý nghĩa của các kích thước. Thu thập cái nhìn sâu sắc từ một số bản đồ này có thể cho bạn một bức tranh khá đẹp về những gì đang xảy ra trong dữ liệu của bạn.

nhập mô tả hình ảnh ở đây

Trên trang web được liên kết ở trên, bạn cũng sẽ tìm thấy thông tin về một quy trình mới, HCPC, viết tắt của Phân cụm phân cấp trên các Thành phần chính và có thể bạn quan tâm. Về cơ bản, phương pháp này hoạt động như sau:

  • thực hiện MCA,
  • giữ lại kích thước đầu tiên (trong đó , với số lượng tính năng ban đầu của bạn). Bước này hữu ích ở chỗ nó loại bỏ một số nhiễu và do đó cho phép phân cụm ổn định hơn,kk<pp
  • thực hiện phân cụm phân cấp kết tụ (từ dưới lên) trong không gian của các PC được giữ lại. Vì bạn sử dụng tọa độ của các hình chiếu của các quan sát trong không gian PC (số thực), bạn có thể sử dụng khoảng cách Euclide, với tiêu chí của Ward cho liên kết (tăng tối thiểu trong phương sai trong cụm). Bạn có thể cắt dendogram ở độ cao bạn thích hoặc để chức năng R cắt nếu hoặc bạn dựa trên một số heuristic,
  • (tùy chọn) ổn định các cụm bằng cách thực hiện phân cụm K-nghĩa. Cấu hình ban đầu được đưa ra bởi các trung tâm của cụm được tìm thấy ở bước trước.

Sau đó, bạn có rất nhiều cách để điều tra các cụm (hầu hết các tính năng đại diện, hầu hết các cá nhân đại diện, v.v.)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.