@gung hoàn toàn chính xác khi đề xuất bạn chia tỷ lệ đa chiều (MDS) như một công cụ sơ bộ để tạo points X dimensions
dữ liệu ngoài ma trận khoảng cách. Tôi chỉ thêm vài nét. K-có nghĩa là phân cụm ngụ ý khoảng cách euclide . MDS sẽ cung cấp cho bạn tọa độ điểm theo chiều do đó đảm bảo cho bạn khoảng cách euclide. Bạn nên sử dụng MDS số liệu và yêu cầu số lượng kích thước càng lớn càng tốt, vì mục đích của bạn là giảm thiểu lỗi lấy lại dữ liệu, không ánh xạ nó ở dạng 2D hoặc 3D.
Điều gì xảy ra nếu bạn không có phần mềm MDS trong tay nhưng có một số chức năng ma trận như phân tách giá trị riêng hoặc phân tách giá trị số ít? Sau đó, bạn có thể tự thực hiện số liệu MDS đơn giản - Torgerson MDS, còn được gọi là phân tích tọa độ chính (PCoA). Nó lên tới một chút "xoắn" phân tích Thành phần chính. Tôi sẽ không mô tả nó ở đây, mặc dù nó khá đơn giản. Bạn có thể đọc về nó ở nhiều nơi, ví dụ ở đây .
Cuối cùng, có thể lập trình trực tiếp "K-nghĩa cho đầu vào ma trận khoảng cách" - mà không cần gọi hoặc viết các hàm thực hiện PCoA hoặc MDS số liệu khác. Chúng ta biết rằng (a) tổng độ lệch bình phương so với centroid bằng tổng khoảng cách Euclide bình phương cặp chia cho số điểm; và (b) biết cách tính khoảng cách giữa các cụm sao ra khỏi ma trận khoảng cách ; (c) và chúng tôi biết thêm về cách tính tổng các hình vuông có liên quan đến nhau trong K-nghĩa. Tất cả cùng nhau làm cho việc viết thuật toán bạn muốn một cách đơn giản và không phải là một công việc phức tạp. Tuy nhiên, người ta nên nhớ rằng phương tiện K chỉ dành cho khoảng cách Euclide / không gian euclide. Sử dụng K-medoid hoặc các phương pháp khác cho khoảng cách không phải euclide.
Một câu hỏi tương tự .