Làm thế nào là tìm trung tâm khác với tìm trung bình?


26

Khi thực hiện phân cụm theo cấp bậc, người ta có thể sử dụng nhiều số liệu để đo khoảng cách giữa các cụm. Hai số liệu như vậy ngụ ý tính toán trọng tâm và phương tiện của các điểm dữ liệu trong các cụm.

Sự khác biệt giữa trung bình và trung tâm là gì? Không phải những điểm giống nhau trong cụm sao?

Câu trả lời:


38

Theo như tôi biết, "trung bình" của một cụm và tâm của một cụm là giống nhau, mặc dù thuật ngữ "centroid" có thể chính xác hơn một chút so với "trung bình" khi xử lý dữ liệu đa biến.

Để tìm trọng tâm, người ta tính riêng trung bình (số học) của các vị trí của các điểm cho từng thứ nguyên. Ví dụ: nếu bạn có điểm tại:

  • (-1, 10, 3),
  • (0, 5, 2) và
  • (1, 20, 10),

sau đó trọng tâm sẽ được đặt tại ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3), giúp đơn giản hóa (0, 11 2/3, 5). (NB: Trọng tâm không phải là - và hiếm khi là --- một trong những điểm dữ liệu gốc)

Trọng tâm đôi khi cũng được gọi là trung tâm khối lượng hoặc barycenter, dựa trên sự giải thích vật lý của nó (nó là trung tâm khối lượng của một vật thể được xác định bởi các điểm). Giống như giá trị trung bình, vị trí của trung tâm giảm thiểu khoảng cách bình phương từ các điểm khác.

Một ý tưởng liên quan là medoid , là điểm dữ liệu "ít khác biệt nhất" từ tất cả các điểm dữ liệu khác. Không giống như trung tâm, medoid phải là một trong những điểm ban đầu. Bạn cũng có thể quan tâm đến trung vị hình học phù hợp với trung vị, nhưng đối với dữ liệu đa biến. Cả hai đều khác với centroid.

ABcentroid(A)centroid(B)aiAdist(ai,b1)dist(ai,b2)dist(ai,bn)


Trong những điều kiện trung tâm và medoid là giống hệt nhau? Và cũng tại sao centroid là một đại diện tốt của một tập hợp các điểm?
raikumardipak

@dkr, Bạn có thể muốn hỏi câu hỏi này như một câu hỏi mới để nhận được nhiều câu trả lời (và sâu hơn). Điều đó nói rằng, sự khác biệt rút gọn thành hai điều: 1) điều cần giảm thiểu (khoảng cách bình phương / chỉ tiêu L2 cho trọng tâm, khoảng cách tuyệt đối / chỉ tiêu L1 cho mediod) và 2) Cho dù đầu ra có thể là bất kỳ điểm nào (centroid) hay phải nằm trong tập dữ liệu (mediod). Bạn có thể tưởng tượng các trường hợp chúng sẽ giống nhau, nhưng nói chung, chúng sẽ không giống nhau. Trọng tâm là "tốt" vì cùng lý do trung bình là (khoảng cách bình phương nhỏ nhất đến các điểm) và cũng có nhược điểm tương tự (ví dụ, không mạnh mẽ đối với các ngoại lệ).
Matt Krause

4

Câu trả lời trên có thể không chính xác khi xem video này: https://www.youtube.com/watch?v=VMyXc3SiEqs Có vẻ như trung bình cộng tất cả các kết hợp khoảng cách giữa các yếu tố của cụm 1 và cụm 2 - đó là n ^ 2 khoảng cách được cộng lại với nhau và sau đó chia cho n ^ 2 cho mức trung bình.

Phương pháp Centroid trước tiên tính trung bình của mỗi cụm trong chính nó. Sau đó, nó tính toán một khoảng cách giữa các điểm trung bình.


1
Chào Gabe! Tôi nghĩ bạn đang nói về phần này của video? Theo như tôi biết, trọng tâm và giá trị trung bình của một cụm là giống nhau nhưng, như bạn đã chỉ ra, khoảng cách trung tâm và khoảng cách trung bình giữa hai cụm là các số đo khác nhau. Tôi nghĩ rằng OP đã hỏi về cái trước, nhưng tôi cũng chỉ chỉnh sửa một chút về cái sau. Cảm ơn bạn đã chỉ ra rằng (+1) và chào mừng bạn đến với Xác thực chéo!
Matt Krause

-1

centroid là trung bình của các điểm dữ liệu trong một cụm, điểm centroid không cần phải có trong tập dữ liệu trong khi medoid là điểm dữ liệu gần với centroid hơn, medoid phải có trong dữ liệu gốc

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.