Tôi cần một số gợi ý cho phương pháp phân cụm (phân loại không giám sát) cho một dự án tư vấn. Tôi đang tìm kiếm một phương pháp hy vọng có các thuộc tính sau:
Đối tượng nghiên cứu của tôi có ba tính chất. Một được biểu diễn bằng ma trận khoảng cách (không phải Euclide) và hai ma trận còn lại ở dạng vectơ trong không gian Euclide. Ma trận khoảng cách đến từ các chuỗi và có thể ở dạng phần trăm của sự không giống nhau hoặc phép đo khoảng cách khác của các chuỗi. Thuật toán sẽ có thể lấy cả hai vectơ trong không gian euclide và khoảng cách phi euclide làm đầu vào. Ví dụ, K-medoid có thể hoạt động với ma trận khoảng cách nhưng K-nghĩa là không thể.
Tôi muốn thuật toán chọn số cụm và trọng số cho ba thuộc tính tự động (với kiến thức và ràng buộc trước).
Tôi có thông tin về các trung tâm cụm được xác định trước đó của cụm cụm. Tôi muốn kết hợp nó như các giá trị trước hoặc ban đầu.
Là một nhà thống kê, tôi thích phương pháp này có chức năng rõ ràng hoặc mất chức năng.
Điều gần nhất tôi có thể nghĩ đến là điều chỉnh mô hình hỗn hợp trong khung Bayes sử dụng MCMC nhảy ngược để xác định số lượng cụm. Các vectơ trong R ^ d có thể dễ dàng được tạo thành khả năng bình thường nhưng làm thế nào để đối phó với ma trận khoảng cách là không rõ ràng đối với tôi. Tôi có thể hạn chế giá trị trung bình của khả năng bình thường ở mỗi lần quan sát để MCMC chạy nhưng điều đó không có ý nghĩa toán học / thống kê rõ ràng.
Có ai có kinh nghiệm với một vấn đề tương tự? Đề xuất tham khảo sẽ được đánh giá cao!