Bằng chứng về sự hội tụ của phương tiện k


20

Đối với một nhiệm vụ tôi đã được yêu cầu cung cấp một bằng chứng rằng k-mean hội tụ trong một số bước hữu hạn.

Đây là những gì tôi đã viết:

C

E(C)=xmini=1kxci2
E(C)

Bước 2 đề cập đến bước gắn nhãn từng điểm dữ liệu theo trung tâm cụm gần nhất và bước 3 là bước mà các trung tâm được cập nhật bằng cách lấy giá trị trung bình.

Điều này là không đủ để chứng minh sự hội tụ trong một số bước hữu hạn. Năng lượng có thể tiếp tục nhỏ hơn nhưng không loại trừ khả năng các điểm trung tâm có thể nhảy về mà không thay đổi nhiều năng lượng. Nói cách khác, có thể có nhiều cực tiểu năng lượng và thuật toán có thể nhảy về giữa chúng, phải không?


5
Gợi ý: có thể có bao nhiêu bộ sưu tập các điểm trung tâm?
whuber

Câu trả lời:


34

Đầu tiên, có nhiều nhất cách phân vùng điểm dữ liệu thành các cụm ; mỗi phân vùng như vậy có thể được gọi là "phân cụm". Đây là một con số lớn nhưng hữu hạn. Đối với mỗi lần lặp của thuật toán, chúng tôi tạo ra một cụm mới chỉ dựa trên phân cụm cũ. Thông báo rằngkNNk

  1. nếu cụm cũ giống như cụm mới, thì cụm tiếp theo sẽ lại giống nhau.
  2. Nếu phân cụm mới khác với phân cụm cũ thì phân cụm mới có chi phí thấp hơn

Vì thuật toán lặp lại một hàm có miền là tập hữu hạn, nên việc lặp cuối cùng phải vào một chu kỳ. Chu trình không thể có độ dài lớn hơn bởi vì nếu không (2) bạn sẽ có một số cụm có chi phí thấp hơn chính nó là điều không thể. Do đó chu trình phải có độ dài chính xác . Do đó k-có nghĩa là hội tụ trong một số lần lặp hữu hạn.11


Tại sao thứ tự quan trọng? Đó là, tại sao chúng ta không có chọn cụm? Nk
rrrrr

@rrrrr Công thức đúng là trong đó là một số Stirling thuộc loại thứ hai . Nó không quan trọng vì tôi đã nói nhiều nhất là . {nk}{nk} kN
jkabrg

6

Để thêm một cái gì đó: Liệu thuật toán có hội tụ hay không cũng phụ thuộc vào tiêu chí dừng của bạn. Nếu bạn dừng thuật toán một khi các phép gán cụm không thay đổi nữa, thì bạn thực sự có thể chứng minh rằng thuật toán không nhất thiết phải hội tụ (với điều kiện là phép gán cụm không có bộ ngắt kết hợp xác định trong trường hợp nhiều centroid có cùng khoảng cách).

nhập mô tả hình ảnh ở đây

Ở đây bạn có 8 điểm dữ liệu (dấu chấm) và hai điểm trung tâm (chữ thập đỏ). Bây giờ các điểm dữ liệu xanh có cùng khoảng cách với cả hai bên trái và trung tâm bên phải. Điều tương tự giữ cho các điểm dữ liệu màu xanh. Chúng ta hãy giả sử rằng hàm gán không phải là xác định trong trường hợp này. Hơn nữa, chúng tôi giả định rằng ở lần lặp 1, các chấm màu xanh lá cây được gán cho cụm bên trái và các chấm màu xanh được gán cho cụm bên phải. Sau đó, chúng tôi cập nhật các centroid. Nó chỉ ra rằng trên thực tế họ ở cùng một chỗ. (đây là một phép tính dễ dàng. Đối với trung tâm bên trái, bạn lấy trung bình tọa độ của hai chấm đen bên trái và hai chấm màu xanh lá cây -> (0, 0,5). Tương tự đối với trung tâm bên phải).

Sau đó, ở lần lặp 2, tình huống có vẻ giống nhau, nhưng bây giờ chúng ta giả sử rằng hàm gán không xác định (trong trường hợp quan hệ) của chúng ta gán các chấm màu xanh lá cây cho cụm bên phải và các chấm màu xanh cho cụm bên trái. Một lần nữa trọng tâm sẽ không thay đổi.

Lặp lại 3 giống như lần lặp 1. Do đó, chúng ta có một trường hợp các phép gán cụm liên tục thay đổi và thuật toán (với tiêu chí dừng này) không hội tụ.

Về cơ bản, chúng tôi chỉ đảm bảo rằng mỗi bước trong k-nghĩa là giảm chi phí hoặc giữ nguyên như vậy (ví dụ: thay vì ). Điều này cho phép tôi xây dựng một trường hợp trong đó chi phí giữ nguyên thông qua các lần lặp, mặc dù việc chuyển nhượng vẫn thay đổi.<

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.