Khi nào chúng ta kết hợp giảm kích thước với phân cụm?


16

Tôi đang cố gắng thực hiện phân cụm cấp độ tài liệu. Tôi đã xây dựng ma trận tần số tài liệu thuật ngữ và tôi đang cố gắng phân cụm các vectơ chiều cao này bằng phương tiện k. Thay vì phân cụm trực tiếp, điều tôi đã làm trước tiên là áp dụng phân tách vectơ số ít của LSA (Phân tích ngữ nghĩa tiềm ẩn) để thu được các ma trận U, S, Vt, chọn một ngưỡng phù hợp bằng cách sử dụng biểu đồ scree và phân cụm áp dụng trên các ma trận giảm (cụ thể là Vt vì nó cung cấp cho tôi một thông tin tài liệu khái niệm) dường như mang lại cho tôi kết quả tốt.

Tôi đã nghe một số người nói rằng SVD (phân tách vectơ số ít) đang phân cụm (bằng cách sử dụng thước đo tương tự cosine, v.v.) và không chắc chắn liệu tôi có thể áp dụng phương tiện k trên đầu ra của SVD hay không. Tôi nghĩ rằng nó là chính xác về mặt logic bởi vì SVD là một kỹ thuật giảm kích thước, mang lại cho tôi một loạt các vectơ mới. mặt khác, k-mean sẽ lấy số cụm làm đầu vào và chia các vectơ này thành số cụm được chỉ định. Là thủ tục này thiếu sót hoặc có những cách mà điều này có thể được cải thiện? Bất kỳ đề xuất?


câu hỏi hay. cá nhân tôi đã suy nghĩ về những thứ này. nhưng không có câu trả lời hay
suncoolsu

1
Có các phương pháp đồng thời thực hiện giảm kích thước và phân cụm. Các phương pháp này tìm kiếm một đại diện chiều thấp được chọn tối ưu để tạo thuận lợi cho việc xác định các cụm. Ví dụ, xem gói clustrd trong R và các tham chiếu liên quan.
Nat

Câu trả lời:


6

Đây không phải là một câu trả lời hoàn chỉnh, câu hỏi bạn nên đặt ra là "loại khoảng cách nào được bảo toàn khi thực hiện giảm kích thước?". Do các thuật toán phân cụm như K-nghĩa chỉ hoạt động trên các khoảng cách, nên số liệu khoảng cách phù hợp để sử dụng (về mặt lý thuyết) là số liệu khoảng cách được bảo toàn bằng cách giảm kích thước. Bằng cách này, bước giảm kích thước có thể được xem như một lối tắt tính toán để phân cụm dữ liệu trong không gian chiều thấp hơn. (cũng để tránh cực tiểu địa phương, v.v.)

Có rất nhiều sự tinh tế ở đây mà tôi sẽ không giả vờ hiểu, (khoảng cách địa phương so với khoảng cách toàn cầu, khoảng cách tương đối bị bóp méo, v.v.) nhưng tôi nghĩ đây là hướng đi đúng đắn để suy nghĩ về những điều này về mặt lý thuyết.


+1 Đó là một câu hỏi rất thú vị. Trong trường hợp đó, Euclidean có thể được coi là một số liệu như vậy không? Khi kích thước giảm, các điểm được chiếu vào không gian chiều thấp hơn nhưng điều đó có thể có nghĩa là khái niệm khoảng cách có thể bị mất. Tôi đang có một thời gian khó khăn để xem làm thế nào khoảng cách có thể được bảo tồn khi sử dụng giảm như thế này.
Truyền thuyết

1
Tôi nghĩ rằng câu trả lời này về cơ bản là đúng. Bạn muốn tìm một số nhúng trong một không gian nhỏ hơn mà giữ khoảng cách (đối với một số khái niệm về khoảng cách). Hai thuật toán tốt để kiểm tra là IsomapNhúng cục bộ tuyến tính . "Bảo tồn khu phố" có vẻ như là một cách tiếp cận tốt nếu mục tiêu của bạn đang co cụm.
Stumpy Joe Pete

5

Trả lời tiêu đề của bạn "Khi nào chúng ta kết hợp giảm kích thước với phân cụm?" thay vì câu hỏi đầy đủ. Một lý do có thể là rõ ràng: khi chúng tôi muốn bảo đảm các ngoại lệ của chủ nghĩa nông nghiệp. K-có nghĩa là algo, nếu không có gợi ý trung tâm ban đầu, sẽ lấy k điểm khác biệt nhất trên đám mây làm trung tâm ban đầu, và những thứ này có khả năng là ngoại lệ. Việc ngăn chặn bởi PCA sẽ vô hiệu hóa các ngoại lệ nằm dọc theo các thành phần cơ sở - bằng cách chiếu chúng lên một vài thành phần cao cấp được giữ lại trong PCA.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.