Phân cụm liên tục


9

Vì vậy, tôi có một vấn đề tôi gặp phải liên quan đến việc phân cụm dữ liệu trực tiếp, liên tục. Vì tôi có một bộ dữ liệu ngày càng phát triển, tôi không chắc đâu là cách tốt nhất để chạy phân cụm hiệu quả và hiệu quả. Tôi đã đưa ra một vài giải pháp khả thi bao gồm:

  1. Đặt giới hạn về số lượng điểm dữ liệu sẽ cho phép, do đó, bất cứ khi nào đạt đến giới hạn khi một điểm dữ liệu khác xuất hiện ở điểm cũ nhất sẽ bị xóa. Về cơ bản, điều này sẽ gợi ý rằng dữ liệu cũ không còn phù hợp với chúng ta nữa để quan tâm đến những gì chúng ta đang mất bằng cách loại bỏ nó.

  2. Khi có đủ dữ liệu để tạo một cụm tốt, hãy xem xét "thiết lập" này và khi các điểm mới xuất hiện, thay vì phân cụm lại tất cả dữ liệu chỉ cần tìm ra trung tâm cụm nào mà điểm mới gần nhất và thêm nó vào đó. Lợi ích ở đây là bạn có thể tránh phải phân cụm lại ở mọi điểm mới và bạn sẽ không phải lưu trữ tất cả các điểm khác, chỉ các trung tâm cụm, xem xét cụm này "đủ tốt". Nhược điểm là chạy lại thuật toán với tất cả các điểm dữ liệu ngay từ đầu có thể chính xác hơn.

Trong khi đó là một số giải pháp tiềm năng mà tôi bị bão não, tôi muốn biết liệu có bất kỳ kỹ thuật nào được biết đến nhiều hơn để đối mặt với vấn đề này. Tôi cho rằng các trang web như Google phải xử lý bằng cách nào đó (và tôi hy vọng rằng "thêm nhiều ram, máy chủ và bộ xử lý" hoặc "liên tục mở rộng trung tâm dữ liệu của bạn" không phải là câu trả lời duy nhất có sẵn).

Câu trả lời:



9

Có một số lượng công việc khá lớn về phân cụm luồng (hơi khác so với các phương thức trực tuyến, nhưng về cơ bản là những gì bạn muốn). Tài liệu tham khảo ở trên của Guha et al là một tài liệu rất hay và để có cái nhìn tổng quát hơn về loại kỹ thuật nào hoạt động và phương pháp nào đã được sử dụng trong quá khứ (cả heuristic và chính xác), bạn có thể muốn xem xét khảo sát của tôi trên cụm trên luồng .



4

Tôi thích khảo sát của Suresh ở trên và tóm tắt các cách tiếp cận khác nhau trong phân cụm luồng. Bạn đã không yêu cầu điều này, nhưng có thể trong một số trường hợp, vấn đề là dữ liệu liên tục được nhìn thấy bởi các máy chủ phân tán, người ta phải duy trì một cụm ở trung tâm và không phải di chuyển nhiều dữ liệu xung quanh. Xem ở đây .


chào mừng, Muthu!
Suresh Venkat
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.