k-nghĩa vs k-trung?


14

Tôi biết có thuật toán phân cụm k-mean và k-median. Một cái sử dụng giá trị trung bình là trung tâm của cụm và cái còn lại sử dụng trung vị. Câu hỏi của tôi là: khi nào / sử dụng ở đâu?


Bạn sẽ phải xác định trung vị (và có thể tính toán chúng) nếu bạn có nhiều hơn một chiều; nếu bạn chỉ lấy trung vị trong mỗi giá trị thì bạn sẽ mất các thuộc tính quay. Một khả năng nữa là k -medoids
Henry

Câu trả lời:


14

k-có nghĩa là giảm thiểu phương sai trong cụm, bằng với khoảng cách Euclide bình phương.

Nói chung, số học có nghĩa là làm điều này. Nó không tối ưu hóa khoảng cách, nhưng bình phương sai lệch so với giá trị trung bình.

k-median giảm thiểu độ lệch tuyệt đối, bằng khoảng cách Manhattan.

Nói chung, trung bình trên mỗi trục nên làm điều này. Đó là một công cụ ước tính tốt cho giá trị trung bình, nếu bạn muốn giảm thiểu tổng độ lệch tuyệt đối (đó là sum_i abs (x_i-y_i)), thay vì bình phương.

Đó không phải là một câu hỏi về độ chính xác. Đó là một câu hỏi về sự đúng đắn. ;-)

Vì vậy, đây là cây quyết định của bạn:

  • Nếu khoảng cách của bạn là bình phương khoảng cách Euclide , hãy sử dụng phương tiện k
  • Nếu khoảng cách của bạn là số liệu Taxicab , hãy sử dụng trung bình k
  • Nếu bạn có bất kỳ khoảng cách nào khác , hãy sử dụng k-medoid

Một số trường hợp ngoại lệ: theo như tôi có thể nói, tối đa hóa độ tương tự cosin có liên quan đến việc giảm thiểu khoảng cách Euclide bình phương trên dữ liệu chuẩn hóa L2. Vì vậy, nếu dữ liệu của bạn được L2 bình thường hóa; và bạn l2 bình thường hóa phương tiện của bạn mỗi lần lặp, sau đó bạn có thể sử dụng lại phương tiện k.


Tôi phần nào đưa ra vấn đề với tuyên bố rằng trung vị giảm thiểu khoảng cách manhattan, vì không có thỏa thuận duy nhất nào về khái niệm trung vị cho dữ liệu đa chiều. Điều đó không sai, nhưng tôi thấy đó là một tuyên bố sai lệch trong bối cảnh đa chiều. Có nhiều khái quát đa chiều về trung vị, nhiều trong số đó không có liên quan đến việc giảm thiểu khoảng cách manhattan.
Tim Seguine

1
Tôi thay đổi điều này thành trung bình trên mỗi trục. Tôi hy vọng bạn đang hạnh phúc hơn bây giờ.
Anony-Mousse -Reinstate Monica

2

Nếu bạn muốn phân tích không liên quan đến ảnh hưởng có thể có của các giá trị cực trị, hãy sử dụng phương tiện k nhưng nếu bạn muốn chính xác hơn, hãy sử dụng k median


5
Bạn có thể hỗ trợ và / hoặc giải thích những khẳng định này bằng mọi cách?
jona

Vâng, bạn có thể giải thích thêm không? với ví dụ nào?
Jack Twain

2
Tôi nghĩ đó là bởi vì "Median" có thể chịu đựng được các ngoại lệ nhưng "Có nghĩa" hoàn toàn bị ảnh hưởng bởi chúng. Ví dụ: nếu chúng ta có các điểm dữ liệu {1,2,3,5,78} thì rõ ràng là 78 ​​là ngoại lệ. Trung bình của các dữ liệu này là 3 và giá trị trung bình là 17,8. Vì vậy, trung vị là cách tốt nhất để tóm tắt những dữ liệu này.
Fadwa
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.