Để tôi chỉ cho bạn một ví dụ về ứng dụng phân cụm trực tuyến giả định:
Tại thời điểm n điểm 1,2,3,4 được phân bổ cho cụm A màu xanh lam và các điểm b, 5,6,7 được phân bổ cho cụm màu đỏ B.
Tại thời điểm n + 1, điểm a mới được giới thiệu được gán cho cụm A màu xanh nhưng cũng khiến điểm b cũng được gán cho cụm A màu xanh.
Trong các điểm cuối 1,2,3,4, a, b thuộc về A và điểm 5,6,7 cho B. Đối với tôi điều này có vẻ hợp lý.
Điều có vẻ đơn giản thoạt nhìn thực sự là một chút khó khăn - để duy trì định danh qua các bước thời gian. Hãy để tôi cố gắng làm rõ quan điểm này bằng một ví dụ về đường biên giới hơn:
Điểm màu xanh lá cây sẽ khiến hai điểm màu xanh và hai điểm màu đỏ được hợp nhất thành một cụm mà tôi tự ý quyết định tô màu xanh lam - hãy nhớ rằng đây đã là suy nghĩ heuristic của con người tôi trong công việc!
Một máy tính để đưa ra quyết định này sẽ phải sử dụng các quy tắc. Ví dụ: khi các điểm được hợp nhất thành một cụm thì danh tính của cụm được xác định bởi đa số. Trong trường hợp này, chúng tôi sẽ phải đối mặt với một trận hòa - cả màu xanh và màu đỏ có thể là lựa chọn hợp lệ cho cụm mới (ở đây có màu xanh).
Hãy tưởng tượng một điểm đỏ thứ năm gần với điểm xanh. Sau đó, phần lớn sẽ là màu đỏ (3 đỏ so với 2 xanh) vì vậy màu đỏ sẽ là lựa chọn tốt cho cụm mới - nhưng điều này sẽ mâu thuẫn với lựa chọn màu đỏ rõ ràng hơn cho cụm ngoài cùng bên phải vì những màu đó có màu đỏ và có lẽ nên giữ nguyên như vậy .
Tôi thấy khó chịu khi nghĩ về điều này. Vào cuối ngày, tôi đoán không có quy tắc hoàn hảo nào cho việc này - thay vào đó, heuristic tối ưu hóa một số tiêu chí ổn định.
Điều này cuối cùng dẫn đến câu hỏi của tôi:
- "Vấn đề" này có một cái tên mà nó có thể được đề cập đến?
- Có giải pháp "chuẩn" nào cho việc này và ...
- ... thậm chí có thể có một gói R cho điều đó?