Trong những điều kiện nào K-có nghĩa là biến đổi cụm-bất biến?


8

Cho một tập hợp các điểm dữ liệu trong đó chúng tôi chạy K- trên và thu được các cụm .x iR d X c 1 , c 2 , Hoài , c kX={x1,x2,,xm}xiRdXc1,c2,,ck

Bây giờ, nếu chúng ta tạo một tập dữ liệu mới trong đó và và chạy K- trên để nhận cụm .y i = A x i + b y iR d Y g 1 , g 2 , ... g kY={y1,y2,,ym}yi=Axi+byiRdYg1,g2,gk

Trong những điều kiện của và chúng tôi có được đảm bảo để có được các cụm giống nhau không?bAb

Giả sử rằng K-mean đang sử dụng khoảng cách euclide và có cùng điều kiện ban đầu trên cả hai thuật toán, nghĩa là, nếu các trung tâm ban đầu cho X là thì các trung tâm ban đầu cho Y là trong đó . g 0 1 , Mạnh , g 0 k g 0 i = A c 0 i + bc10,,ck0g10,,gk0gi0=Aci0+b

Cho đến nay tôi đã nghĩ rằng phải có thứ hạng đầy đủ và có thể là bất kỳ vectơ nào. Tuy nhiên, tôi đã không thể chứng minh điều đó.bAb

Câu trả lời:


6

Câu trả lời phụ thuộc vào thuật toán K-mean của bạn, nhưng những gì sau đây sẽ hoạt động cho các thuật toán tiêu chuẩn.

Bạn sẽ nhận được kết quả tương tự nếu phép biến đổi của bạn thỏa mãn hai điều kiện:T

  1. Nó bảo toàn khoảng cách: , trong đó là số liệu của bạn, giả sử.d d ( z , w ) = z - w d(z,w)=d(T(z),T(w))dd(z,w)=zw
  2. Nó bảo toàn mức trung bình: if là một tổ hợp lồi mà .ipiziT(ipizi)=ipiT(zi)

Bạn có thể kiểm tra điều này bằng cách xem qua thuật toán, cho thấy rằng nó luôn đưa ra các lựa chọn giống nhau.


Cảm ơn Yuval, điều này rất có ý nghĩa. Điều này có nghĩa là đối với khoảng cách euclide, A sẽ phải là một ma trận trực giao để tạo ra một phép biến đổi cứng nhắc?
Ana Echavarria

Có vẻ như vậy thực sự.
Yuval Filmus
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.