Tôi biết có thuật toán phân cụm k-mean và k-median. Một cái sử dụng giá trị trung bình là trung tâm của cụm và cái còn lại sử dụng trung vị. Câu hỏi của tôi là: khi nào / sử dụng ở đâu?
Tôi biết có thuật toán phân cụm k-mean và k-median. Một cái sử dụng giá trị trung bình là trung tâm của cụm và cái còn lại sử dụng trung vị. Câu hỏi của tôi là: khi nào / sử dụng ở đâu?
Câu trả lời:
k-có nghĩa là giảm thiểu phương sai trong cụm, bằng với khoảng cách Euclide bình phương.
Nói chung, số học có nghĩa là làm điều này. Nó không tối ưu hóa khoảng cách, nhưng bình phương sai lệch so với giá trị trung bình.
k-median giảm thiểu độ lệch tuyệt đối, bằng khoảng cách Manhattan.
Nói chung, trung bình trên mỗi trục nên làm điều này. Đó là một công cụ ước tính tốt cho giá trị trung bình, nếu bạn muốn giảm thiểu tổng độ lệch tuyệt đối (đó là sum_i abs (x_i-y_i)), thay vì bình phương.
Đó không phải là một câu hỏi về độ chính xác. Đó là một câu hỏi về sự đúng đắn. ;-)
Vì vậy, đây là cây quyết định của bạn:
Một số trường hợp ngoại lệ: theo như tôi có thể nói, tối đa hóa độ tương tự cosin có liên quan đến việc giảm thiểu khoảng cách Euclide bình phương trên dữ liệu chuẩn hóa L2. Vì vậy, nếu dữ liệu của bạn được L2 bình thường hóa; và bạn l2 bình thường hóa phương tiện của bạn mỗi lần lặp, sau đó bạn có thể sử dụng lại phương tiện k.
Nếu bạn muốn phân tích không liên quan đến ảnh hưởng có thể có của các giá trị cực trị, hãy sử dụng phương tiện k nhưng nếu bạn muốn chính xác hơn, hãy sử dụng k median