Phân cụm liên tục

9

Vì vậy, tôi có một vấn đề tôi gặp phải liên quan đến việc phân cụm dữ liệu trực tiếp, liên tục. Vì tôi có một bộ dữ liệu ngày càng phát triển, tôi không chắc đâu là cách tốt nhất để chạy phân cụm hiệu quả và hiệu quả. Tôi đã đưa ra một vài giải pháp khả thi bao gồm:

Đặt giới hạn về số lượng điểm dữ liệu sẽ cho phép, do đó, bất cứ khi nào đạt đến giới hạn khi một điểm dữ liệu khác xuất hiện ở điểm cũ nhất sẽ bị xóa. Về cơ bản, điều này sẽ gợi ý rằng dữ liệu cũ không còn phù hợp với chúng ta nữa để quan tâm đến những gì chúng ta đang mất bằng cách loại bỏ nó.
Khi có đủ dữ liệu để tạo một cụm tốt, hãy xem xét "thiết lập" này và khi các điểm mới xuất hiện, thay vì phân cụm lại tất cả dữ liệu chỉ cần tìm ra trung tâm cụm nào mà điểm mới gần nhất và thêm nó vào đó. Lợi ích ở đây là bạn có thể tránh phải phân cụm lại ở mọi điểm mới và bạn sẽ không phải lưu trữ tất cả các điểm khác, chỉ các trung tâm cụm, xem xét cụm này "đủ tốt". Nhược điểm là chạy lại thuật toán với tất cả các điểm dữ liệu ngay từ đầu có thể chính xác hơn.

Trong khi đó là một số giải pháp tiềm năng mà tôi bị bão não, tôi muốn biết liệu có bất kỳ kỹ thuật nào được biết đến nhiều hơn để đối mặt với vấn đề này. Tôi cho rằng các trang web như Google phải xử lý bằng cách nào đó (và tôi hy vọng rằng "thêm nhiều ram, máy chủ và bộ xử lý" hoặc "liên tục mở rộng trung tâm dữ liệu của bạn" không phải là câu trả lời duy nhất có sẵn).

— Suresh Venkat
nguồn

6

Có vẻ như bạn đang tìm kiếm các thuật toán trực tuyến để phân cụm.

Tôi khuyên bạn nên tìm kiếm "phân cụm trực tuyến" trên Google Scholar. Có thể các liên kết sau sẽ chứng minh hữu ích (ít nhất là điểm bắt đầu).

Guha et al.: Luồng dữ liệu phân cụm: Lý thuyết và thực hành
Beringer và Hüllermeier: Phân cụm luồng dữ liệu trực tuyến

— Joel Rybicki
nguồn

9

Có một số lượng công việc khá lớn về phân cụm luồng (hơi khác so với các phương thức trực tuyến, nhưng về cơ bản là những gì bạn muốn). Tài liệu tham khảo ở trên của Guha et al là một tài liệu rất hay và để có cái nhìn tổng quát hơn về loại kỹ thuật nào hoạt động và phương pháp nào đã được sử dụng trong quá khứ (cả heuristic và chính xác), bạn có thể muốn xem xét khảo sát của tôi trên cụm trên luồng .

— Suresh Venkat
nguồn

7

Bạn cũng có thể xem các ghi chú cho Bài giảng 14 và Bài giảng 15 của khóa học của tôi về các thuật toán luồng dữ liệu.

— Piotr
nguồn

4

Tôi thích khảo sát của Suresh ở trên và tóm tắt các cách tiếp cận khác nhau trong phân cụm luồng. Bạn đã không yêu cầu điều này, nhưng có thể trong một số trường hợp, vấn đề là dữ liệu liên tục được nhìn thấy bởi các máy chủ phân tán, người ta phải duy trì một cụm ở trung tâm và không phải di chuyển nhiều dữ liệu xung quanh. Xem ở đây .

— tôi cũng vậy
nguồn

chào mừng, Muthu!

— Suresh Venkat