Vì vậy, tôi có một vấn đề tôi gặp phải liên quan đến việc phân cụm dữ liệu trực tiếp, liên tục. Vì tôi có một bộ dữ liệu ngày càng phát triển, tôi không chắc đâu là cách tốt nhất để chạy phân cụm hiệu quả và hiệu quả. Tôi đã đưa ra một vài giải pháp khả thi bao gồm:
Đặt giới hạn về số lượng điểm dữ liệu sẽ cho phép, do đó, bất cứ khi nào đạt đến giới hạn khi một điểm dữ liệu khác xuất hiện ở điểm cũ nhất sẽ bị xóa. Về cơ bản, điều này sẽ gợi ý rằng dữ liệu cũ không còn phù hợp với chúng ta nữa để quan tâm đến những gì chúng ta đang mất bằng cách loại bỏ nó.
Khi có đủ dữ liệu để tạo một cụm tốt, hãy xem xét "thiết lập" này và khi các điểm mới xuất hiện, thay vì phân cụm lại tất cả dữ liệu chỉ cần tìm ra trung tâm cụm nào mà điểm mới gần nhất và thêm nó vào đó. Lợi ích ở đây là bạn có thể tránh phải phân cụm lại ở mọi điểm mới và bạn sẽ không phải lưu trữ tất cả các điểm khác, chỉ các trung tâm cụm, xem xét cụm này "đủ tốt". Nhược điểm là chạy lại thuật toán với tất cả các điểm dữ liệu ngay từ đầu có thể chính xác hơn.
Trong khi đó là một số giải pháp tiềm năng mà tôi bị bão não, tôi muốn biết liệu có bất kỳ kỹ thuật nào được biết đến nhiều hơn để đối mặt với vấn đề này. Tôi cho rằng các trang web như Google phải xử lý bằng cách nào đó (và tôi hy vọng rằng "thêm nhiều ram, máy chủ và bộ xử lý" hoặc "liên tục mở rộng trung tâm dữ liệu của bạn" không phải là câu trả lời duy nhất có sẵn).